Cloud ein zentrales Element für Daten-Verarbeitung
Talend unterstützt das ICIJ beim Entschlüsseln versteckter Informationen in den Paradise Papers
Mit "Talend Data Integration" deckt eine Gruppe von investigativen Journalisten (ICIJ) die Offshore-Steueroasen von Machthabern und weltweit bekannten Marken auf
Das Internationale Netzwerk investigativer Journalisten (ICIJ) nutzt "Talend Data Fabric" für seine Auswertung der so genannten Paradise Papers. Diese Lösung stammt von Talend, Anbieterin von Integrationslösungen für Cloud und Big Data. Bei den Paradise Papers handelt es sich um 13,4 Millionen verschlüsselte Dokumente von zwei Offshore-Dienstleistern und 19 Steueroasen, die sich der geheimen Abwicklung von Finanztransaktionen politischer Größen und Konzerngiganten verschrieben haben.
Das ICIJ nutzte Talend, um mehr als 1,4 Terabyte unstrukturierter Daten in eine Neo4j-Graphdatenbank zu laden. Mit der Software Linkurious, eine Plattform für die Graphvisualisierung, erfolgen der Informationszugriff und die Datenorganisation.
Der Datenbestand umfasst E-Mails, Excel-, CSV- und PDF-Dateien mit Texten und Bildern zu Unternehmen und Personen, die ein zur Steuervermeidung entwickeltes Geheimsystem nutzten. Das ICIJ setzte zur Unterstützung seines "Knowledge Centers” weitere Open-Source-Tools ein, um die Daten für die Journalisten durchsuchbar zu machen.
"Wenn es um die Bereinigung, Transformation und Integration der erhaltenen Daten geht, ist die Lösung von Talend für uns das Mittel der Wahl. Für den Aufbau einer robusten Datenbank ist die Lösung für uns unentbehrlich", so Pierre Romera, CTO des ICIJ. "Das Arbeiten mit Open-Source-Tools wie Talend gewährleistet die Sicherheit und Zuverlässigkeit der Daten, denn unser umfangreiches Netzwerk investigativer Journalisten prüft Dateien mit einem Gesamtvolumen von mehreren Terabyte. Dank der Unterstützung einer riesigen Community von Mitwirkenden und des Einsatzes von Open-Source-Lösungen können wir innovative und topaktuelle Methoden für die Verarbeitung, Extraktion und Veranschaulichung der Daten nutzen."
Auch die Cloud bildet ein zentrales Element für die Verarbeitung der ICIJ-Daten. Die Organisation macht sich die Leistungsfähigkeit von Amazon Web Services (AWS) zunutze, um alle Daten zu verarbeiten und den Zugriff darauf zu erweitern. Für eine parallele Datenextraktion hat das ICIJ temporäre virtuelle Maschinen eingerichtet. Für die optische Zeichenerkennung und die Extraktion von Texten aus den Dateien werden Ubuntu, Tesseract und ein internes Tool namens Extract eingesetzt.
"In Anbetracht unseres Auftrags und der gigantischen Datenmengen, war die Nutzung von Cloud-Technologien naheliegend. Diese bieten uns bei Bedarf das benötigte Maß an Skalierbarkeit. So können wir unsere Leistungsanforderungen stets sehr einfach erfüllen. Aufgrund seiner robusten Verarbeitungsleistung und der hohen Sicherheit war AWS der geeignetste Anbieter für uns", erläutert Romera.
Die 13,4 Millionen Dokumente wurden der Süddeutschen Zeitung zugespielt. Sie umfassten Daten zweier Offshore-Dienstleister aus Bermuda und Singapur sowie die Unternehmensregister aus 19 Staaten auf der ganzen Welt. Etwa ein Jahr lang arbeiteten hunderte Journalisten und Medienpartner im Auftrag des ICIJ an der Sichtung dieses Bestands. Die Folgen für viele Prominente und Großunternehmen waren beträchtlich.
"Seit das ICIJ 2016 die Panama Papers veröffentlichte und dafür mit dem Pulitzerpreis ausgezeichnet wurde, wissen wir, wie groß der Nutzen von Datenmanagement- und Datenverarbeitungstechnologien für die Gesellschaft ist", sagt Ciaran Dynes, SVP of Products bei Talend. "Wir unterstützen gerne gründlichen investigativen Journalismus und helfen all jenen, die aussagekräftige Erkenntnisse aus Daten gewinnen wollen." (Talend: ra)
eingetragen: 05.02.18
Home & Newsletterlauf: 15.03.18
Talend: Kontakt und Steckbrief
Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.