Sie sind hier: Startseite » Fachartikel » Hintergrund

Was bedeutet Datenqualität im KI-Kontext?

Künstliche Intelligenz basiert auf guter Datengrundlage – an genau diesem Punkt kommt Datenqualität ins Spiel
Große Datenmengen bedeuten nicht zwangsläufig, dass diese für einen KI-Anwendungsfall geeignet sind

Künstliche Intelligenz basiert auf guter Datengrundlage – an genau diesem Punkt kommt Datenqualität ins Spiel. Dabei bedeuten große Datenmengen nicht zwangsläufig, dass diese für einen KI-Anwendungsfall geeignet sind. Was also meint Datenqualität hinsichtlich KI und wirksamer KI-Tools? Und wie kreieren mittelständische Unternehmen in Zukunft Datenqualität für künstliche Intelligenz?

Wesentliche Erfolgsparameter
Wirkliche Prominenz erlangte KI insbesondere durch erstaunliche Ergebnisse sogenannter Large Language Models wie ChatGPT. Solche Erfolgsgeschichten lassen viele Unternehmer in dem Glauben, gewinnbringende Large Language Models, kurz LLMs, seien echte Selbstläufer. Tatsächlich funktionieren die heutigen LLMs in ihrer Domäne auch deshalb so gut, weil das Internet gigantische Datenmengen bereitstellt und Entwickler diese mittels Pre-Training effizient nutzen. Die Kombination aus vorhandenen Daten und einem Pre-Training ist jedoch nicht in allen Bereichen durchsetzbar. Letzteres erfordert vor allem eine horrende Menge Content in Textform.

Mittelständler, die perspektivisch eigene KI-Use-Cases entwickeln und umsetzen möchten, kommen nicht umhin, sich mit dem Thema Datenqualität auseinanderzusetzen. Sie entscheidet in letzter Instanz über das Gelingen eines KI-Projekts, definiert die Datenmengen und den Nutzwert der Ergebnisse. Es gilt das Garbage-in-garbage-out-Prinzip: Taugen die Daten nichts, erzielt auch das beste Machine Learning Model keine zufriedenstellenden Resultate.

Was meint Datenqualität? 
Welche Anforderungen müssen qualitativ hochwertige Datensätze erfüllen? Einige Datenqualitätskriterien sind recht einfach nachzuvollziehen und zu prüfen, darunter die Datenvollständigkeit. Fehlen in den einzelnen Trainingsbeispielen nur wenige Einträge, beugt das größeren, zusammenhängenden Lücken vor. Kleine Leerstellen schließen Experten, indem sie einzelne Werte durch den Mittelwert ersetzen. Größere Auslassungen im Datensatz hingegen erschweren dieses Vorgehen.

Darüber hinaus sollten Daten wenige Outlier enthalten. Outlier meint Datenpunkte, also Trainingsbeispiele, die sich in einem oder mehreren Werten in ihrem Wesen vollkommen von den anderen Datenpunkten unterscheiden. In Summe bringen sie das Machine Learning Model von der eigentlichen Verteilung ab. Outlier entstehen unter anderem durch Fehler beim Sammeln oder Erstellen von Daten, beispielsweise durch Vertipper oder Zahlendreher, und können maschinell erkannt und behandelt werden.

Daten und Use Case ergeben ein Match
Der entscheidende Punkt in Sachen Datenqualität lautet: Die Daten sollten möglichst gut zum Use Case passen. Dazu machen Unternehmen einen Anwendungsfall für bestehende Daten ausfindig – was sich nicht selten als Herausforderung erweist – oder entwerfen einen Datensatz, der zu einem vorhandenen Use Case passt. Letzteres ist mit hohem Aufwand verbunden. Der Mittelweg ergänzt bestehende Daten um für einen bestimmten Use Case zusätzlich erstellte Daten und kristallisiert sich als bewährte Herangehensweise für mittelständische Unternehmen heraus.

Trainingsdatensätze dienen dazu, die Welt möglichst realistisch abzubilden. Der immensen Datenvielfalt geschuldet, erfüllt nur eine Minderheit der KI-Anwendungsfälle das Ziel. Enthält der Trainingsdatensatz viele Beispiele, die im echten Einsatz potenziell vorkommen, unterstützt dieser Faktor das Training enorm. Auf diese Weise gelingt es, unterschiedliche Parameter des Modells so einzustellen, dass es eine hinreichende Performance erlangt. Ein anschauliches Beispiel: Damit ein KI-Tool Hunderassen anhand von Bildern klassifiziert, muss dem Trainingsdatensatz umfangreiches Bildmaterial jeder Hunderasse vorliegen.

Optimale Datenbasis für KI 
Das Geheimnis guter Datenqualität liegt darin, Daten und Use Case in Einklang zu bringen. Entweder ergeben ein entdeckter Anwendungsfall und vorhandene Daten ein Match oder Unternehmen entwickeln passende Datensätze für einen gefunden Use Case. So reibungslos wie dargestellt, funktioniert es in der Praxis selten von Beginn an. Doch es existieren Methoden, die darin unterstützen, das Beste aus einem Datensatz herauszukitzeln. Experten fügen Trainingsbeispiele manuell hinzu, wenn es von deren Typ bislang wenige gibt. In der Umsetzung heißt das: Entwickler denken sich ein fiktives, aber realistisches Trainingsbeispiel mit all seinen Werten aus. (Brandmauer AI Solutions: ra)

eingetragen: 08.12.24
Newsletterlauf: 04.02.25

Brandmauer AI Solutions: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.

Meldungen: Hintergrund

Steigende Globalisierung von Daten
Der Aufstieg souveräner Clouds ist unausweichlich geworden, da regulatorische Anforderungen und geopolitische Spannungen Unternehmen dazu zwingen, neu zu überdenken, wo ihre Daten gespeichert werden. Lokalisierte Cloud-Umgebungen werden zunehmend unerlässlich, da sie Unternehmen erlauben, ihre Daten innerhalb bestimmter rechtlicher Rahmen zu halten, um Compliance-Anforderungen zu erfüllen und Risiken zu reduzieren. Doch souveräne Clouds können ohne Daten-Portabilität - also der Möglichkeit, Daten nahtlos zwischen Systemen und Standorten zu verschieben - nicht erfolgreich sein. Es gilt: Nicht warten, bis Regulierungen einen selbst antreiben, sondern der Entwicklung voraus sein.
KI-Nutzung am Edge
Nutzung von Synergien zwischen HCI, Cloud und Edge ermöglicht es Unternehmen, dezentralisierte Infrastrukturen einzurichten, um so das volle Potenzial von KI nutzen zu können. Hyperkonvergente Infrastruktur (HCI) kann viele der Leistungs-, Logistik- und Kostenprobleme beseitigen, die die Cloud nicht lösen kann.
Einsatz von Cloud-Umgebungen
Das Thema Cloud ist in fast allen IT-Abteilungen nach wie vor allgegenwärtig. Aber immer häufiger stellt sich auch Ernüchterung ein: Die hohen Erwartungen an Kosteneinsparungen und Komplexitätsreduktion haben sich nicht überall erfüllt - oft ist sogar das Gegenteil eingetreten. Hinzu kommen neue Unsicherheiten durch aktuelle geopolitische Veränderungen und eine neue Wahrnehmung der Bedeutung von Digitaler Souveränität. Daher entscheiden sich immer mehr Unternehmen für eine (teilweise) Verlagerung von Workloads aus der Cloud auf eigene On-Premises-Strukturen. Doch auch da lauern Herausforderungen. Wie behält man die Kontrolle über beide Welten?
Unsicherheiten verändern die Cloud-Landschaft
Die geopolitischen Entwicklungen der letzten Monate haben der Diskussion um digitale Souveränität neue Brisanz verliehen. Unmittelbar beobachten lässt sich eine zunehmende Nachfrage nach Alternativen zu US-amerikanischen Cloud-Diensten. Vielen Unternehmen ist bewusst geworden, dass ihre Abhängigkeit von Anbietern wie AWS, Azure oder Google Cloud ein Risiko darstellt, das weit über abstrakte Datenschutzbedenken hinausgeht.
Barrieren für den Datenzugriff abbauen
Große Datenmengen stellen für Unternehmen eine immer größere Herausforderung dar. Unterstützt von Cloud-basierten Daten- und Orchestrierungsplattformen bieten sie jedoch auch wertvolle Chancen. Vor allem der Einsatz von KI- und ML-basierten Technologien erweist sich für das Aufbereiten und Analysieren großer Datenmengen als hilfreich.
Was bedeutet Datenqualität im KI-Kontext?
Künstliche Intelligenz basiert auf guter Datengrundlage - an genau diesem Punkt kommt Datenqualität ins Spiel. Dabei bedeuten große Datenmengen nicht zwangsläufig, dass diese für einen KI-Anwendungsfall geeignet sind.
Herausforderungen für CIOs
Die Fertigungsindustrie befindet sich in einem tiefgreifenden Wandel. Vernetzte und digitalisierte Smart Factories ersetzen heute die traditionellen Produktionslinien. IT-Systeme werden dabei nahtlos in sämtliche Fertigungsprozesse integriert, um in Echtzeit auf Daten zuzugreifen und Prozesse zu automatisieren.
Data Governance und Datensicherheit
Sicheres Datenmanagement ist Pflicht. Die tatsächliche Gewährleistung angemessener Datenverwaltung und -sicherheit hängt aber von den technischen Möglichkeiten ab: Entscheidend sind Lösungen und entsprechende Plattformen, die die Dateninfrastruktur ausgestalten.
GPU-Infrastruktur von Cloud-Anbietern
Große Hyperscale-Cloud-Computing-Unternehmen sind nach wie vor die Hauptabnehmer von KI-Hardware (z. B. GPUs und anwendungsspezifische integrierte Schaltkreise oder ASICs). Die Investitionsausgaben und Ausgabenprognosen für viele Unternehmensplattformen sind deutlich gestiegen - darunter Microsoft Azure, Amazon Web Services, Google, Oracle und Meta.
Auf dem Weg zum klimaneutralen Rechenzentrum
ESRS, CSRD, EnEfG … um die verschiedenen gesetzlichen Nachhaltigkeits-Regularien zu erfüllen, benötigen Betreiber von Rechenzentren mehr Transparenz über den Energieverbrauch und die Treibhausgas-Emissionen ihrer IT-Infrastruktur.

Barrieren für den Datenzugriff abbauen Herausforderungen für CIOs

Fachbeiträge: Hintergrund

Künstliche Intelligenz in der Cloud
Die Giganten der Tech-Branche planen in diesem Jahr mehr als 300 Milliarden US-Dollar auszugeben, um im KI-Wettrüsten wettbewerbsfähig zu bleiben. Allein Amazon hat über 100 Milliarden US-Dollar angekündigt, während Microsoft, Alphabet und Meta jeweils weitere Dutzende Milliarden für den Bau riesiger Rechenzentren, den Ausbau von GPU-Clustern und die Sicherung ihrer Dominanz im Bereich der Cloud-basierten KI ausgeben wollen. Investitionen in dieser Größenordnung sorgen für Schlagzeilen und viele Unternehmen, die selbst dabei sind, ihre KI-Strategie zu planen, sehen sich gezwungen, ihrerseits hohe Budgets einzuplanen. Für die meisten Unternehmen ist es jedoch weder praktikabel noch notwendig, den Plänen der Hyperscaler zu folgen. IT-Führungskräfte fragen sich deshalb zurecht, was für den Einsatz der KI im Unternehmen tatsächlich benötigt wird.
Tape hat ausgedient, Public Cloud ist verzichtbar
Zwei in der Datensicherung eingesetzte Technologien stehen derzeit bei vielen Unternehmen und Behörden auf dem Prüfstand. Bei Tape sind mit der Einführung von LTO-10 die Verbindungen zu Vorgängergenerationen komplett abgeschnitten worden, was eine vollständige Migration aller Systeme und Daten notwendig macht. Die Public Cloud entpuppt sich in vielen Fällen als wesentlich teurer als angenommen und zudem bestimmen rechtlichen Bedenken hinsichtlich Datenschutz und Datenhoheit die Diskussion.

Fachbeiträge: Grundlagen

Beispiel für die 3-2-1-Backup-Regel
Die 3-2-1-Backup-Regel ist ein einfacher, aber wirkungsvoller Ansatz zur Datensicherung. Diese Strategie gewährleistet, dass Daten unter nahezu allen Umständen sicher und wiederherstellbar sind. Sie minimiert Risiken und maximiert die Ausfallsicherheit, indem mehrere Kopien der Daten an verschiedenen Orten aufbewahrt werden. Interessant wird das Thema jedoch, wenn Cloud-Ressourcen bzw. Cloud-Tools mieteinbezogen werden.
Cloud-Repatriierung richtig planen
Lange galt die Cloud als Endpunkt der IT-Modernisierung. Doch mit dem Aufkommen rechenintensiver KI-Workloads, neuen regulatorischen Pflichten und intransparenten Kostenmodellen stellt sich für viele Unternehmen die Frage neu: Welche Workloads gehören wirklich in die Cloud und welche besser zurück ins eigene Rechenzentrum? Dieser Leitfaden gibt Orientierung für die Rückverlagerung geschäftskritischer Anwendungen.

IT Security

Hochkarätige Keynotes und Impulse
Am 04. und 05. März 2026 wird die Allianz Arena München zum Treffpunkt der Cybersicherheitsbranche: Ftapi veranstaltet zum zweiten Mal die CPT - Connect. Protect. Transform. Das Event geht über die klassische IT-Security-Konferenz hinaus: Es bringt führende Köpfe aus Politik, Wirtschaft und Wissenschaft zusammen, um die Zukunft der Cybersicherheit als gesamtgesellschaftliche Aufgabe zu gestalten.
Sichere Einführung von KI
Zscaler übernimmt die Pionierin von KI-Sicherheit SPLX und baut damit sein Serviceportfolio um die Absicherung von KI-Anwendungen aus. Die "Zscaler Zero Trust Exchange"-Plattform wird um Shift-Left KI Asset Discovery, automatisiertes Red Teaming und Governance erweitert, so dass Unternehmen ihre KI-Investitionen von der Entwicklung bis zur Bereitstellung sichern können.

IT Security - Angriffe & Lecks

Vorgehensweise von Shai-Hulud V2
Sysdig, Unternehmen für Echtzeit-Cloud-Sicherheit, warnt vor einer neuen Version des Shai-Hulud-Wurms (auch als Sha1-Hulud bezeichnet), der am 24. November 2025 beobachtet wurde. Er verbreitet sich derzeit über verseuchte NPM-Pakete im Internet. Bislang sind über 800 Pakete betroffen, und Zugangsdaten für über 25.000 GitHub-Repositories wurden weitergegeben. Das Ausmaß und der Umfang der Auswirkungen auf die Opfer, die diese neue Version des Wurms mit sich bringt, übertrifft die vorherige Version, da er eine Vielzahl neuer Methoden einsetzt.
Cybercrime-Netzwerk aufgedeckt
Check Point Software Technologies hat mithilfe ihres External Risk Management Teams ein weit verzweigtes Cybercrime-Netzwerk aufgedeckt. Dieses verwandelt legitime Werbeplattformen in Einfallstore für Cyber-Angriffe. Der unter dem Codenamen Payroll Pirates bekannte Zusammenschluss zielt seit Mitte 2023 auf Gehaltsabrechnungs- und Finanzsysteme ab, um Zugangsdaten zu stehlen und Gehaltszahlungen umzuleiten.

IT Security - Fachbeiträge

Sicherheitsvorfälle in Software-Lieferketten
Die jüngsten Attacken auf Software-Lieferketten zeigen, wie anfällig und eng verflochten die digitale Infrastruktur geworden ist. Der Vorfall rund um den Wurm Shai-Hulud im npm-Ökosystem, dem Fundament vieler moderner Web- und Unternehmensanwendungen, führte bereits zur Kompromittierung von über 500 Paketen. Die Schadsoftware sammelte Cloud-Zugangsdaten aus AWS-, GCP- und Azure-Umgebungen sowie GitHub-Zugriffs-Tokens und verbreitete sich eigenständig, indem sie infizierten Code in weitere Module einschleuste.
Infrastruktur als Erfolgsfaktor für KI
Die EU schreitet mit der Umsetzung des AI Act sowie einer umfassenderen Strategie zur Förderung und Bereitstellung von KI- und Cloud-Infrastrukturen in den Mitgliedstaaten voran. Doch Unternehmen stehen zunehmend unter Druck. Ihre Infrastrukturen müssen mit den wachsenden betrieblichen Anforderungen, geopolitischen Spannungen und erweiterten regulatorischen Vorgaben Schritt halten. Zwar will die EU damit die Wettbewerbsfähigkeit stärken und den administrativen Aufwand verringern, doch ihr Erfolg hängt maßgeblich davon ab, wie die angestrebte Harmonisierung in der Praxis umgesetzt wird.

IT Security - Tipps / Hintergrund / Wissen

Dynamische Umgehungstechniken
Im Jahr 2025 prägten vor allem die Kombination aus KI, sich kontinuierlich weiterentwickelnden Phishing-as-a-Service (PhaaS)-Kits und immer ausgefeilteren Techniken zur Verbreitung von Phishing und zur Umgehung von Sicherheitsmaßnahmen die Phishing-Landschaft. Die Threat-Analysten von Barracuda gingen beispielsweise noch vor einem Jahr davon aus, dass PhaaS-Kits bis Ende 2025 für die Hälfte aller Angriffe mit dem Ziel, Anmeldedaten zu stehlen, genutzt werden. Der tatsächliche Anteil liegt nun bei etwas über 50 Prozent. Darüber hinaus hat sich die Anzahl der Phishing-Kits im Jahr 2025 verdoppelt.
Stärkere "wurmartige" Ausbreitung
Als die erste Welle der Shai-Hulud-Kampagne im Jahr 2025 bekannt wurde, entwickelte sich der Vorfall rasch zu einem der schwerwiegendsten Angriffe im gesamten JavaScript-Ökosystem. Die Sicherheitsforscher von JFrog gehörten zu den ersten, die den Angriff umfassend analysierten und dabei aufdeckten, dass Hunderte von npm-Paketen kompromittiert worden waren. Ein selbstreplizierender Wurm stahl Zugangsdaten, erbeutete Cloud-Token und veröffentlichte manipulierte Paketversionen automatisiert erneut.