Sie sind hier: Startseite » Fachartikel » Grundlagen

Vorteile automatisierter Datenintegration


ETL versus ELT: Welchen Weg in der Datenintegration einschlagen?
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT)


Von Alexander Zipp, Commercial Lead DACH bei Fivetran

Die Vorteile vom Software-as-a-Service (SaaS)-Modell liegen klar auf der Hand. Unternehmen müssen ihre Anwendungen nicht auf eigenen Systemen installieren und ausführen und sich keine Hardware anschaffen. Gleichzeitig lassen sich Geschäftsprozesse effizienter managen und Mitarbeiter haben jederzeit Zugriff auf ihre Anwendungen. Doch durch die steigende Anzahl von Cloud-Anwendungen explodiert auch die Menge an Daten in den Unternehmen. Die eigentliche Herausforderung ist dabei der zuverlässige Zugriff auf aktuelle Daten aus den verschiedenen Anwendungen.

Die übliche Vorgehensweise der Datenintegration ist ein Prozess, der als Extract-Transform-Load beschrieben und kurz ETL genannt wird. ETL ist in den 70-er Jahren entstanden, als Rechenleistung, Speicherkapazität und Bandbreite gering und teuer waren. Doch ist der ETL-Prozess noch zeitgemäß oder bereits eine überholte Vorgehensweise?

ETL – der klassische Weg bei der Datenintegration
Beim ETL-Prozess werden Daten mit Hilfe von meist hauptsächlich manuell erstellten Daten Pipelines aus Quellen extrahiert und anschließend in ein Datenmodell umgewandelt. Analysten können diese Modelle wiederum in Berichte und Dashboards umwandeln, und laden die Daten in ein Data Warehouse.

Der ETL-Workflow gliedert sich in die folgenden fünf Schritte:
1. Gewünschte Datenquellen identifizieren.
2. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
3. Datenmodell/-schema definieren, das von Analysten und anderen Benutzern benötigt wird.
4. Aufbau der Pipeline, bestehend aus Extraktions-, Transformations- und Ladefunktionen.
5. Analysen durchführen und Erkenntnisse ziehen.

Da in ETL die Extrahierung und die Transformation durchgeführt wird, bevor die Daten in ein Ziel geladen werden, sind sie eng miteinander verknüpft. Darüber hinaus ist jede ETL-Pipeline eine komplizierte, maßgeschneiderte Lösung, weil die Transformationen von den spezifischen Anforderungen der Analysten abhängig sind. Die enge Kopplung zwischen Extrahierung und Transformation verhindert auch, dass bei einem Fehler oder einer Unterbrechung einer Transformation Daten in das Ziel geladen werden können, was wiederum zu Ausfallzeiten führt.

Der Einsatz von ETL zur Datenintegration bringt also eine Reihe von Herausforderungen mit sich.
• Permanente Wartung –
Da die DataPipeline sowohl Daten extrahiert als auch transformiert, bricht bei sich ändernden Schemata oder -Datenmodelle, die Pipeline zusammen. Oft ist dann eine umfangreiche Überarbeitung der Codebasis erforderlich.
• Anpassung und Komplexität – Die Data Pipelines extrahieren nicht nur Daten, sondern führen auch anspruchsvolle Transformationen durch, die auf die spezifischen Analyseanforderungen der Endnutzer ausgelegt sind. Das führt zu einer großen Menge an benutzerdefiniertem Code.
• Hoher Arbeitsaufwand und Kosten – Da das System auf einer benutzerdefinierten Code-Basis läuft, ist ein Team von erfahrenen Data Engineers erforderlich, um es aufzubauen und zu pflegen.

Technologietrends hin zur Cloud-Datenintegration
Solch ein hoher Arbeitsaufwand war zu einer Zeit als Rechenleistung, Speicherkapazität und Bandbreite knapp und teuer waren noch vertretbar. Auch das Volumen und die Vielfalt der Daten waren begrenzt. ETL stammt aus einer Zeit mit völlig anderen technologischen Voraussetzungen als heute. Im Zeitalter der Cloud existieren diese Einschränkungen nicht mehr.

Diese Entwicklungen haben ETL in zweierlei Hinsicht überflüssig gemacht. Zunächst hat die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite zu einem explosionsartigen Wachstum der Cloud und Cloud-basierter Dienste geführt. Gleichzeitig haben auch das Volumen, die Vielfalt und die Komplexität der Daten zugenommen. Eine benutzerdefinierte Pipeline, die nur eine begrenzte Datenmenge und -granularität berücksichtigt, reicht nicht mehr aus.

Zweitens unterliegen moderne Datenintegrationstechnologien weniger Beschränkungen hinsichtlich des zu speichernden Datenvolumens und der Häufigkeit der Abfragen innerhalb eines Data Warehouses. Durch die kosteneffiziente Verfügbarkeit von Rechenleistung, Speicherkapazität und Bandbreite lässt sich der Workflow der Datenintegration neu ordnen. Vor allem aber können es sich Unternehmen leisten, Quelldaten im Data Warehouse zu speichern.

ELT – Der moderne Weg zur Datenintegration
Die Möglichkeit, Quelldaten in Data Warehouses zu speichern, erlaubt eine neue Architektur der Datenintegration: Extract-Load-Transform (ELT). Bei ELT verschiebt sich der Schritt "transformieren“ ans Ende der Data Pipeline.Damit wird vermieden, dass mögliche Störfaktoren von ETL (sich ändernde Schemata oder Datenmodelle) das Extrahieren und Laden beeinflussen. Das hat einem einfacheren und robusteren Ansatz für die Datenintegration zur Folge.

Wie bei ETL besteht auch der ELT-Prozess aus fünf Schritten, ist aber weniger aufwendig und flexibler:
1. Gewünschte Datenquellen identifizieren.
2. Automatisiertes Extrahieren und Laden ausführen.
3. Genaue Analyseanforderungen festlegen, die das Projekt lösen soll.
4. Datenmodelle anhand von Transformationen erstellen.
5. Analysen durchführen und Erkenntnisse ziehen.

Unter ELT sind das Extrahieren und Laden von Daten losgelöst von der Transformation und gehen ihr voraus. Obwohl es in der Transformationsebene zu Fehlern kommen kann, wenn sich Schemata oder Datenmodelle ändern, werden Daten weiterhin zuverlässig in die Destination geladen. Unternehmen können weiterhin Daten extrahieren und laden, auch wenn die Transformationen regelmäßig von Analysten neu geschrieben werden. Die Quelldaten aus diversen Anwendungen in verschiedenen Formaten und Datenstrukturen werden originalgetreu in einem Data Warehouse repliziert und damit zur „Single Source of Truth". Analysten können die Daten in ein einheitliches Schema transformieren, ohne die Integrität der gespeicherten Daten zu beeinträchtigen.

Vorteile automatisierter Datenintegration
Automatisierte ELT verwenden vorgefertigte sofort einsatzbereite Datenkonnektoren, die Schema- und API-Änderungen automatisch erkennen und replizieren sowie Daten bereinigen und normalisieren. Mit einem ELT-Ansatz können Unternehmen ihren Datenintegrations-Prozess erheblich erleichtern. Anstatt sich um den Aufbau und die Pflege der Data Pipelines zu kümmern, können sich Data Engineers auf geschäftsrelevante Projekte konzentrieren, wie die Optimierung der Dateninfrastruktur oder die Umsetzung von Vorhersagemodellen.

Fivetran bietet ein vollautomatisches, vollständig verwaltetes Datenintegrationstool, das den technischen Aufwand reduziert. Mit vorkonfigurierten Konnektoren werden Daten von der Quelle bis zum Ziel verwaltet und automatisch in normalisierten, analysebereiten Schemata an das Data Warehouse geliefert. Das macht den Zugriff auf Daten so zuverlässig und selbstverständlich, wie Strom aus der Steckdose und bietet Analysten ein hohes Maß an Flexibilität. (Fivetran: ra)

eingetragen: 10.06.21
Newsletterlauf: 31.08.21

Fivetran: Kontakt und Steckbrief

Fivetran automatisiert alle Arten von Data Movement im Zusammenhang mit Cloud-Datenplattformen. Das gilt vor allem für die zeitaufwendigsten Teile des ELT-Prozesses (Extract, Load, Transform) - von der Extraktion von Daten über das Handling von Schema-Drifts bis hin zu Daten-Transformationen. Damit können sich Data Engineers auf wichtigere Projekte konzentrieren, ohne sich um die Data Pipelines kümmern zu müssen. Mit einer Up-Time von 99,9 Prozent und sich selbst reparierenden Pipelines ermöglicht Fivetran Hunderten von führenden Marken weltweit, darunter Autodesk, Lionsgate und Morgan Stanley, datengestützte Entscheidungen zu treffen und so ihr Unternehmenswachstum voranzutreiben. Fivetran hat seinen Hauptsitz in Oakland, Kalifornien, und verfügt über Niederlassungen auf der ganzen Welt.

Der deutschsprachige Markt wird aus dem Büro in München betreut. Zu den Kunden in Deutschland zählen DOUGLAS, Hermes, Lufthansa, Siemens, VW Financial Services und Westwing. Weitere Informationen unter www.fivetran.com.

Kontaktdaten
Fivetran
Luise-Ullrich-Straße 20
80636 München, Deutschland
E-Mail: hallo[at]fivetran.com
Webseite: https://fivetran.com/de

Dieses Boilerplate ist eine Anzeige der Firma Fivetran.
Sie zeichnet auch für den Inhalt verantwortlich.

Lesen Sie mehr:
Datenintegration für Unternehmen jeder Größe
Fivetran vereinfacht Datenintegration
Nahtlose Replikation großer Datensätze
Die Datenkultur hat sich grundlegend gewandelt
Data Governance und Datensicherheit
Fivetran weiter auf der Erfolgsspur
Cloud-Deployment für Fivetran-Plattform
Fivetran erweitert Partnerschaft mit Snowflake
Datenautobahn ohne Stau für die Logistik
Nutzung von KI- und Generative-KI-Technologien
Data Lake Management automatisiert und vereinfacht
Daten sind Basis für alle Formen der KI
Schlechte Datenpraktiken noch weit verbreitet
Datenbasierte Entscheidungen treffen
Datenaustausch im Unternehmen automatisieren
Reduzierte Latenzzeiten und Kosten
25 Jahre Erfahrung im SaaS-Umfeld
Fivetran sorgt für Business Insights
Kontrollierte, benutzerfreundliche Repositories
Aufbau einer soliden Data-Lake-Grundlage
Cloud Data Lake, Lakehouse oder Warehouse
Skalierbare Konnektoren und Destinationen
Fivetran als Launch-Partnerin
Prozess zur Datenintegration in BigQuery
Weniger Kosten für Neukundengewinnung
Inspirierende Führungspersönlichkeit
Anbindung an praktisch jede SaaS-Anwendung
Unterstützung von Amazon S3
Fivetran setzt Wachstum fort
Daten in Cloud- & On-Premise-Umgebungen
Fivetran: Führungsteam ausgebaut
Data Act könnte schon 2024 in Kraft treten
Mit Cloud-Architektur zum "Master of Data"
Vorteile automatisierter Datenintegration
Schwierigkeiten bei der Bereitstellung der Daten


Kostenloser PMK-Verlags-Newsletter
Ihr PMK-Verlags-Newsletter hier >>>>>>


Meldungen: Grundlagen

  • EU-DORA-Compliance sicherstellen

    Die neue EU-DORA-Verordnung soll die digitale operative Widerstandsfähigkeit des Finanzsektors stärken. Dazu gehören überarbeitete Vorschriften und Richtlinien in Bezug auf Cyberrisiko-Management, Datensicherheit, Governance, Ausfallsicherheit und Multi-Cloud-Flexibilität. Eine einheitliche, sichere und hybride Datenplattform ist dabei essentiell, um den neuen Anforderungen in Zeiten von Drittanbieter-Cloud-Infrastrukturen gerecht zu werden.

  • KI-gestütztes Datenmanagement

    Durch die Fortschritte im Bereich Künstlicher Intelligenz (KI) überdenken viele Unternehmen ihre Geschäftsmodelle. Beispielsweise möchten sie Echtzeit-Daten nutzen, um prädiktive Erkenntnisse zu gewinnen und die Entscheidungsfindung zu unterstützen. Als Grundlage benötigen Unternehmen jedoch eine moderne Strategie zum Management und Schutz ihrer Daten, welche die Komplexität ihrer IT-Umgebungen adressiert und für effiziente Abläufe sorgt.

  • Unveränderlicher Speicher für permanenten Schutz

    Fast alle Unternehmen sind heute stark von Daten abhängig; Daten fördern die Entscheidungsfindung, verbessern die Effizienz und helfen Unternehmen, ihren Mitbewerbern einen Schritt voraus zu sein. Dabei müssen Organisationen jedoch sorgfältig mit der riesigen Menge der gesammelten und gespeicherten Daten umgehen.

  • Keine Angst vor der Cloud

    Immer mehr IT-Dienstleister bieten ihre Lösungen und Tools im Cloud-Betrieb an. Gerade im Bereich Software-as-a-Service (SaaS) ist der Trend zu Cloud-Lösungen ungebrochen. Dennoch zögern viele Unternehmen bei der Nutzung der Cloud. Sie sorgen sich um die Sicherheit ihrer Daten und setzen weiterhin auf den Betrieb im eigenen Rechenzentrum.

  • Herausforderung: Cloud Bursting

    Als Technik zur Anwendungsbereitstellung ermöglicht Cloud Bursting die Vereinigung des Besten aus beiden Welten. Auf der einen Seite ermöglicht es den Betrieb einer Anwendung in einem privaten Rechenzentrum, mit bekannten, festen Investitionskosten, vollständiger Kontrolle über die Umgebungen und organisatorischem Fachwissen für deren Betrieb. Auf der anderen Seite wird sie in einer öffentlichen Cloud genutzt, die auf Abruf verfügbar ist und über nahezu unbegrenzte Ressourcen verfügt.

  • SASE-Transformation in drei Schritten

    Der KPMG Global Tech Report 2022 bestätigt, was viele IT-Experten bereits in ihrer täglichen Praxis beobachten: Der Einsatz von Cloud-Anwendungen ist nicht länger das Kennzeichen von digitalen Vorreitern und Marktführern, sondern schlicht die logische Weiterentwicklung digitaler Technologien.

  • Datensicherheit in Microsoft 365

    Während Microsoft 365 Unternehmen eine hervorragende Skalierbarkeit und Redundanz bietet, um Störungen durch Naturereignisse und mechanische Ausfälle Störungen zu vermeiden, ist das Hosten von Daten in der Cloud mit gewissen Risiken verbunden. Anwenderverursachte absichtliche oder versehentliche Datenverluste sind nach wie vor ein Problem für Unternehmen.

  • Die Krux mit dem Outsourcing

    Rund 850.000 Stellen sind laut Statista in Deutschland unbesetzt. Der akute Personalmangel, aber auch ein zu schnelles Wachstum oder Kosteneinsparungen sind Gründe, warum Unternehmen einzelne Bereiche outsourcen. Den Kundenservice externen Experten zu überlassen, hilft dabei, sich auf die eigenen Kernkompetenzen zu konzentrieren oder das gewünschte Service-Level zu erreichen. Vor allem wenn die Kundenanzahl steigt, aber die nötigen Mitarbeiter nicht schnell genug eingestellt werden können.

  • Es muss nicht immer Cloud sein

    Seit Jahren dreht sich in der IT alles um "die Cloud". Wobei es die eine Cloud eigentlich gar nicht gibt. Von Private über Hybrid und Multi bis zur Public Cloud ist heute so gut wie jede Infrastruktur Cloud-fähig - inklusive physischer Server. Analog nutzen die meisten Unternehmen heute in der Praxis eine Kombination aus zahlreichen verschiedenen Infrastrukturen, die alle ihre eigenen Vor- und Nachteile haben.

  • Fehlkonfiguration von Cloud-Ressourcen

    Kaum hat sich CASB als Abkürzung für Cloud Access Security Broker im Markt durchgesetzt, klopft schon die nächste Sicherheitslösung an: Cloud Security Posture Management oder kurz CSPM. Der von Gartner-Analysten geprägte Name steht für einen neuen Sicherheitsansatz, um der hohen Dynamik von Cloud-Infrastrukturen und ihrer immer komplexeren, zeitaufwändigeren Administration gerecht zu werden.

Wir verwenden Cookies um unsere Website zu optimieren und Ihnen das bestmögliche Online-Erlebnis zu bieten. Mit dem Klick auf "Alle akzeptieren" erklären Sie sich damit einverstanden. Erweiterte Einstellungen