
Vorteile automatisierter Datenintegration
ETL versus ELT: Welchen Weg in der Datenintegration einschlagen?
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT)
Von Alexander Zipp, Commercial Lead DACH bei Fivetran
Die Vorteile vom Software-as-a-Service (SaaS)-Modell liegen klar auf der Hand. Unternehmen müssen ihre Anwendungen nicht auf eigenen Systemen installieren und ausführen und sich keine Hardware anschaffen. Gleichzeitig lassen sich Geschäftsprozesse effizienter managen und Mitarbeiter haben jederzeit Zugriff auf ihre Anwendungen. Doch durch die steigende Anzahl von Cloud-Anwendungen explodiert auch die Menge an Daten in den Unternehmen. Die eigentliche Herausforderung ist dabei der zuverlässige Zugriff auf aktuelle Daten aus den verschiedenen Anwendungen.
Die übliche Vorgehensweise der Datenintegration ist ein Prozess, der als Extract-Transform-Load beschrieben und kurz ETL genannt wird. ETL ist in den 70-er Jahren entstanden, als Rechenleistung, Speicherkapazität und Bandbreite gering und teuer waren. Doch ist der ETL-Prozess noch zeitgemäß oder bereits eine überholte Vorgehensweise?
ETL – der klassische Weg bei der Datenintegration
Beim ETL-Prozess werden Daten mit Hilfe von meist hauptsächlich manuell erstellten Daten Pipelines aus Quellen extrahiert und anschließend in ein Datenmodell umgewandelt. Analysten können diese Modelle wiederum in Berichte und Dashboards umwandeln, und laden die Daten in ein Data Warehouse.
Der ETL-Workflow gliedert sich in die folgenden fünf Schritte:
1. Gewünschte Datenquellen identifizieren.
2. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
3. Datenmodell/-schema definieren, das von Analysten und anderen Benutzern benötigt wird.
4. Aufbau der Pipeline, bestehend aus Extraktions-, Transformations- und Ladefunktionen.
5. Analysen durchführen und Erkenntnisse ziehen.
Da in ETL die Extrahierung und die Transformation durchgeführt wird, bevor die Daten in ein Ziel geladen werden, sind sie eng miteinander verknüpft. Darüber hinaus ist jede ETL-Pipeline eine komplizierte, maßgeschneiderte Lösung, weil die Transformationen von den spezifischen Anforderungen der Analysten abhängig sind. Die enge Kopplung zwischen Extrahierung und Transformation verhindert auch, dass bei einem Fehler oder einer Unterbrechung einer Transformation Daten in das Ziel geladen werden können, was wiederum zu Ausfallzeiten führt.
Der Einsatz von ETL zur Datenintegration bringt also eine Reihe von Herausforderungen mit sich.
• Permanente Wartung – Da die DataPipeline sowohl Daten extrahiert als auch transformiert, bricht bei sich ändernden Schemata oder -Datenmodelle, die Pipeline zusammen. Oft ist dann eine umfangreiche Überarbeitung der Codebasis erforderlich.
• Anpassung und Komplexität – Die Data Pipelines extrahieren nicht nur Daten, sondern führen auch anspruchsvolle Transformationen durch, die auf die spezifischen Analyseanforderungen der Endnutzer ausgelegt sind. Das führt zu einer großen Menge an benutzerdefiniertem Code.
• Hoher Arbeitsaufwand und Kosten – Da das System auf einer benutzerdefinierten Code-Basis läuft, ist ein Team von erfahrenen Data Engineers erforderlich, um es aufzubauen und zu pflegen.
Technologietrends hin zur Cloud-Datenintegration
Solch ein hoher Arbeitsaufwand war zu einer Zeit als Rechenleistung, Speicherkapazität und Bandbreite knapp und teuer waren noch vertretbar. Auch das Volumen und die Vielfalt der Daten waren begrenzt. ETL stammt aus einer Zeit mit völlig anderen technologischen Voraussetzungen als heute. Im Zeitalter der Cloud existieren diese Einschränkungen nicht mehr.
Diese Entwicklungen haben ETL in zweierlei Hinsicht überflüssig gemacht. Zunächst hat die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite zu einem explosionsartigen Wachstum der Cloud und Cloud-basierter Dienste geführt. Gleichzeitig haben auch das Volumen, die Vielfalt und die Komplexität der Daten zugenommen. Eine benutzerdefinierte Pipeline, die nur eine begrenzte Datenmenge und -granularität berücksichtigt, reicht nicht mehr aus.
Zweitens unterliegen moderne Datenintegrationstechnologien weniger Beschränkungen hinsichtlich des zu speichernden Datenvolumens und der Häufigkeit der Abfragen innerhalb eines Data Warehouses. Durch die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite lässt sich der Workflow der Datenintegration neu ordnen. Vor allem aber können es sich Unternehmen leisten, Quelldaten im Data Warehouse zu speichern.
ELT – Der moderne Weg zur Datenintegration
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT). Bei ELT verschiebt sich der Schritt "transformieren“ ans Ende der Data Pipeline.Damit wird vermieden, dass mögliche Störfaktoren von ETL (sich ändernde Schemata oder Datenmodelle) das Extrahieren und Laden beeinflussen. Das hat einem einfacheren und robusteren Ansatz für die Datenintegration zur Folge.
Wie bei ETL besteht auch der ELT-Prozess aus fünf Schritten, ist aber weniger aufwendig und flexibler:
1. Gewünschte Datenquellen identifizieren.
2. Automatisiertes Extrahieren und Laden ausführen.
3. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
4. Datenmodelle anhand von Transformationen erstellen.
5. Analysen durchführen und Erkenntnisse ziehen.
Unter ELT sind das Extrahieren und Laden von Daten losgelöst von der Transformation und gehen ihr voraus. Obwohl es in der Transformationsebene zu Fehlern kommen kann, wenn sich Schemata oder Datenmodelle ändern, werden Daten weiterhin zuverlässig in die Destination geladen. Unternehmen können weiterhin Daten extrahieren und laden, auch wenn die Transformationen regelmäßig von Analysten neu geschrieben werden. Die Quelldaten aus diversen Anwendungen in verschiedenen Formaten und Datenstrukturen werden originalgetreu in einem Data Warehouse repliziert und damit zur „Single Source of Truth". Analysten können die Daten in ein einheitliches Schema transformieren, ohne die Integrität der gespeicherten Daten zu beeinträchtigen.
Vorteile automatisierter Datenintegration
Automatisierte ELT verwenden vorgefertigte sofort einsatzbereite Datenkonnektoren, die Schema- und API-Änderungen automatisch erkennen und replizieren sowie Daten bereinigen und normalisieren. Mit einem ELT-Ansatz können Unternehmen ihren Datenintegrations-Prozess erheblich erleichtern. Anstatt sich um den Aufbau und die Pflege der Data Pipelines zu kümmern, können sich Data Engineers auf geschäftsrelevante Projekte konzentrieren, wie die Optimierung der Dateninfrastruktur oder die Umsetzung von Vorhersagemodellen.
Fivetran bietet ein vollautomatisches, vollständig verwaltetes Datenintegrationstool, das den technischen Aufwand reduziert. Mit vorkonfigurierten Konnektoren werden Daten von der Quelle bis zum Ziel verwaltet und automatisch in normalisierten, analysebereiten Schemata an das Data Warehouse geliefert. Das macht den Zugriff auf Daten so zuverlässig und selbstverständlich, wie Strom aus der Steckdose und bietet Analysten ein hohes Maß an Flexibilität. (Fivetran: ra)
eingetragen: 10.06.21
Newsletterlauf: 31.08.21
Fivetran: Kontakt und Steckbrief

Fivetran ist der führende Anbieter für automatisierte Datenintegration. Das Unternehmen bietet eine vollautomatisierte, vollständig verwaltete Datenintegrationslösung, die in wenigen Minuten eingerichtet ist. Durch vorkonfigurierte Konnektoren werden Daten automatisiert in normalisierten, analysebereiten Schemata an das Datawarehouse geliefert, auch dann, wenn sich Schemata oder APIs ändern.
Mit der zunehmenden Verlagerung in die Cloud sind SaaS-Anwendungen eine der wichtigsten Quellen für Geschäftsdaten und decken eine Vielzahl von betrieblichen Vorgängen ab. Sie bieten ausgefeilte Dienste und Funktionen und machen die manuelle Ausführung von Aufgaben mit hohem Arbeitsaufwand deutlich einfacher oder sogar überflüssig. Unternehmen nutzen heute im Schnitt mehr als 100 SaaS-Anwendungen, die alle ständig neue Daten produzieren. Eine manuelle Datenintegration in diesem Umfang ist extrem zeitaufwändig und wartungsintensiv. Für einen zuverlässigen Zugriff auf stets aktuelle Daten eignet sich daher eine automatisierte Datenintegration.
Fivetran automatisiert die Zentralisierung von Daten aus über 150 verschiedenen Quellen in allen führenden Cloud-Datenspeichern. Das garantiert einen einfachen und zuverlässigen Zugriff auf Daten unter anderem aus SaaS-Anwendungen. Mit den vordefinierten Konnektoren lassen sich die Betriebsdaten aus den verschiedenen Unternehmensbereichen, wie Marketing, Zahlungsabwicklung, Kundenpflege, E-Commerce, technisches Projektmanagement und vieles mehr, innerhalb weniger Minuten und ohne Konfigurationsaufwand zentralisieren. Anstatt sich mit der Erfassung, Verwaltung und Bereitstellung der Daten zu beschäftigen, bleibt Unternehmen mehr Zeit sich auf die Datenanalyse zu konzentrieren. Die automatisierte Datenintegration hilft Unternehmen, ihre Daten vollumfänglich zu nutzen, um strategische Entscheidungen zu beschleunigen und zu verbessern.
Kontaktdaten
Fivetran
Luise-Ullrich-Straße 20
80636 München, Deutschland
E-Mail: hallo[at]fivetran.com
Webseite: https://fivetran.com/de-de
Dieses Boilerplate ist eine Anzeige der Firma Fivetran.
Sie zeichnet auch für den Inhalt verantwortlich.
Lesen Sie mehr:
Mit Cloud-Architektur zum "Master of Data"
Vorteile automatisierter Datenintegration
Schwierigkeiten bei der Bereitstellung der Daten