Sie sind hier: Startseite » Fachartikel » Hintergrund

Was bedeutet Datenqualität im KI-Kontext?


Künstliche Intelligenz basiert auf guter Datengrundlage – an genau diesem Punkt kommt Datenqualität ins Spiel
Große Datenmengen bedeuten nicht zwangsläufig, dass diese für einen KI-Anwendungsfall geeignet sind


Künstliche Intelligenz basiert auf guter Datengrundlage – an genau diesem Punkt kommt Datenqualität ins Spiel. Dabei bedeuten große Datenmengen nicht zwangsläufig, dass diese für einen KI-Anwendungsfall geeignet sind. Was also meint Datenqualität hinsichtlich KI und wirksamer KI-Tools? Und wie kreieren mittelständische Unternehmen in Zukunft Datenqualität für künstliche Intelligenz?

Wesentliche Erfolgsparameter
Wirkliche Prominenz erlangte KI insbesondere durch erstaunliche Ergebnisse sogenannter Large Language Models wie ChatGPT. Solche Erfolgsgeschichten lassen viele Unternehmer in dem Glauben, gewinnbringende Large Language Models, kurz LLMs, seien echte Selbstläufer. Tatsächlich funktionieren die heutigen LLMs in ihrer Domäne auch deshalb so gut, weil das Internet gigantische Datenmengen bereitstellt und Entwickler diese mittels Pre-Training effizient nutzen. Die Kombination aus vorhandenen Daten und einem Pre-Training ist jedoch nicht in allen Bereichen durchsetzbar. Letzteres erfordert vor allem eine horrende Menge Content in Textform.

Mittelständler, die perspektivisch eigene KI-Use-Cases entwickeln und umsetzen möchten, kommen nicht umhin, sich mit dem Thema Datenqualität auseinanderzusetzen. Sie entscheidet in letzter Instanz über das Gelingen eines KI-Projekts, definiert die Datenmengen und den Nutzwert der Ergebnisse. Es gilt das Garbage-in-garbage-out-Prinzip: Taugen die Daten nichts, erzielt auch das beste Machine Learning Model keine zufriedenstellenden Resultate.

Was meint Datenqualität? 
Welche Anforderungen müssen qualitativ hochwertige Datensätze erfüllen? Einige Datenqualitätskriterien sind recht einfach nachzuvollziehen und zu prüfen, darunter die Datenvollständigkeit. Fehlen in den einzelnen Trainingsbeispielen nur wenige Einträge, beugt das größeren, zusammenhängenden Lücken vor. Kleine Leerstellen schließen Experten, indem sie einzelne Werte durch den Mittelwert ersetzen. Größere Auslassungen im Datensatz hingegen erschweren dieses Vorgehen.

Darüber hinaus sollten Daten wenige Outlier enthalten. Outlier meint Datenpunkte, also Trainingsbeispiele, die sich in einem oder mehreren Werten in ihrem Wesen vollkommen von den anderen Datenpunkten unterscheiden. In Summe bringen sie das Machine Learning Model von der eigentlichen Verteilung ab. Outlier entstehen unter anderem durch Fehler beim Sammeln oder Erstellen von Daten, beispielsweise durch Vertipper oder Zahlendreher, und können maschinell erkannt und behandelt werden.

Daten und Use Case ergeben ein Match
Der entscheidende Punkt in Sachen Datenqualität lautet: Die Daten sollten möglichst gut zum Use Case passen. Dazu machen Unternehmen einen Anwendungsfall für bestehende Daten ausfindig – was sich nicht selten als Herausforderung erweist – oder entwerfen einen Datensatz, der zu einem vorhandenen Use Case passt. Letzteres ist mit hohem Aufwand verbunden. Der Mittelweg ergänzt bestehende Daten um für einen bestimmten Use Case zusätzlich erstellte Daten und kristallisiert sich als bewährte Herangehensweise für mittelständische Unternehmen heraus.

Trainingsdatensätze dienen dazu, die Welt möglichst realistisch abzubilden. Der immensen Datenvielfalt geschuldet, erfüllt nur eine Minderheit der KI-Anwendungsfälle das Ziel. Enthält der Trainingsdatensatz viele Beispiele, die im echten Einsatz potenziell vorkommen, unterstützt dieser Faktor das Training enorm. Auf diese Weise gelingt es, unterschiedliche Parameter des Modells so einzustellen, dass es eine hinreichende Performance erlangt. Ein anschauliches Beispiel: Damit ein KI-Tool Hunderassen anhand von Bildern klassifiziert, muss dem Trainingsdatensatz umfangreiches Bildmaterial jeder Hunderasse vorliegen.

Optimale Datenbasis für KI 
Das Geheimnis guter Datenqualität liegt darin, Daten und Use Case in Einklang zu bringen. Entweder ergeben ein entdeckter Anwendungsfall und vorhandene Daten ein Match oder Unternehmen entwickeln passende Datensätze für einen gefunden Use Case. So reibungslos wie dargestellt, funktioniert es in der Praxis selten von Beginn an. Doch es existieren Methoden, die darin unterstützen, das Beste aus einem Datensatz herauszukitzeln. Experten fügen Trainingsbeispiele manuell hinzu, wenn es von deren Typ bislang wenige gibt. In der Umsetzung heißt das: Entwickler denken sich ein fiktives, aber realistisches Trainingsbeispiel mit all seinen Werten aus. (Brandmauer AI Solutions: ra)

eingetragen: 08.12.24
Newsletterlauf: 04.02.25

Brandmauer AI Solutions: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.


Kostenloser PMK-Verlags-Newsletter
Ihr PMK-Verlags-Newsletter hier >>>>>>


Meldungen: Hintergrund

  • Data Governance und Datensicherheit

    Sicheres Datenmanagement ist Pflicht. Die tatsächliche Gewährleistung angemessener Datenverwaltung und -sicherheit hängt aber von den technischen Möglichkeiten ab: Entscheidend sind Lösungen und entsprechende Plattformen, die die Dateninfrastruktur ausgestalten.

  • GPU-Infrastruktur von Cloud-Anbietern

    Große Hyperscale-Cloud-Computing-Unternehmen sind nach wie vor die Hauptabnehmer von KI-Hardware (z. B. GPUs und anwendungsspezifische integrierte Schaltkreise oder ASICs). Die Investitionsausgaben und Ausgabenprognosen für viele Unternehmensplattformen sind deutlich gestiegen - darunter Microsoft Azure, Amazon Web Services, Google, Oracle und Meta.

  • Auf dem Weg zum klimaneutralen Rechenzentrum

    ESRS, CSRD, EnEfG … um die verschiedenen gesetzlichen Nachhaltigkeits-Regularien zu erfüllen, benötigen Betreiber von Rechenzentren mehr Transparenz über den Energieverbrauch und die Treibhausgas-Emissionen ihrer IT-Infrastruktur.

  • Dokumentenmanagement und elektronische Signatur

    Damit Unternehmen nicht nur zeitgemäß, sondern auch zukunftsträchtig arbeiten, ist eine Digitalisierung ihrer Geschäftsprozesse unumgänglich. Viele manuelle und behäbige Abläufe lassen sich mit einem digitalen Dokumentenmanagement optimieren. Es gilt, Aufgaben und Dokumente digital zu organisieren und Abläufe so weit wie möglich zu automatisieren.

  • Daten aus der iCloud extrahieren

    Zwölf Jahre ist es her, seit ElcomSoft erstmals iCloud-Backups direkt von Apple herunterladen und die Daten auslesen konnte. Während die einen sagten, dass es keine große Leistung sei, mit dem richtigen Passwort Daten aus einem Online-Backup zu laden, fühlten sich andere in ihrer Auffassung bestätigt, dass Cloud-Speicher ein unkalkulierbares Sicherheitsrisiko seien. Aber beide Sichtweisen waren damals schon stark vereinfacht und sind heute schlicht falsch.

  • Digital Twin der Lieferkette

    Fällt das Wort Lieferkettensorgfaltspflichtengesetz (LkSG), schießt einem meist zeitgleich der Begriff Transparenz in den Kopf. Denn darum geht es doch, oder? Auch! Aber nur Transparenz über die eigene Lieferkette zu erhalten, bringt erstmal wenig. Der Trick ist, zeitgleich eine flexible, optimierte Lieferkette anzustreben - sowohl operativ als auch strategisch.

  • Was bedeutet IT-Automatisierung?

    Eine neue Anwendung zur unternehmensinternen Kommunikation soll auf den PCs aller Mitarbeitenden installiert werden? Eine Routine-Aufgabe für die IT-Abteilung, die das Personal bei einem mittelständischen Unternehmen mit rund 100 Mitarbeitenden manuell umsetzen könnte. Beim Besuch jeder Kollegin und jedes Kollegen am Schreibtisch oder per Remote-Zugriff auf den PC wäre die Applikation, je nach Personalstärke, innerhalb von Stunden überall installiert.

  • Datensicherheit auf mehreren Ebenen

    Unternehmen verlassen sich bei der Verwaltung und Bereitstellung ihrer Daten zunehmend auf Cloud-Dienstleistungen. Dadurch müssen sich die Datenverantwortlichen zunehmend mit der nötigen Datensicherheit und -integrität auseinandersetzen.

  • Schock über die Cloud-Rechnung?

    Die Relevanz von Cloud Computing-Technologie hat im vergangenen Jahrzehnt rasant zugenommen und damit auch die Anzahl an Geschäftsprozessen und Services, die Unternehmen in die Cloud auslagern. Viele Unternehmen verfolgen dabei einen "Cloud first"-Ansatz als zentralen Bestandteil ihrer digitalen Transformationsbemühungen.

  • Einführung in CRaaS

    In der Datenwelt findet ein Sicherheitswettlauf statt. Mit dem Fortschritt der Technologie entwickeln sich aber auch die Waffen und Taktiken der Cyberkriminellen weiter. Unternehmen müssen deshalb ständig ihre Performance optimieren und bessere Methoden entwickeln, um sich vor neuen Attacken und Angriffsmethoden zu schützen.

Wir verwenden Cookies um unsere Website zu optimieren und Ihnen das bestmögliche Online-Erlebnis zu bieten. Mit dem Klick auf "Alle akzeptieren" erklären Sie sich damit einverstanden. Erweiterte Einstellungen