Datenqualität ist der Schlüssel zum KI Erfolg
Der Erfolg von Künstlicher Intelligenz steht und fällt mit den Daten. So fehlt ohne die passenden Daten die Grundlage für sinnvolle und effektive KI Use Cases. Deshalb muss es für viele Unternehmen darum gehen, eine Datenbasis für den KI-Einsatz aufzubauen
Der Erfolg von Künstlicher Intelligenz steht und fällt mit den Daten. So fehlt ohne die passenden Daten die Grundlage für sinnvolle und effektive KI Use Cases. Deshalb muss es für viele Unternehmen darum gehen, eine Datenbasis für den KI-Einsatz aufzubauen. Dabei reicht es aber längst nicht aus, Daten im klassischen Sinne zu sammeln. Vielmehr sollten Sie besonderen Wert auf die Datenqualität legen, um die Daten auch für Machine Learning und KI nutzbar zu machen und nicht nur Datenmüll zu produzieren.
Warum Datenqualität so entscheidend für KI ist
Im regelrechten Hype um Künstliche Intelligenz schien das Thema Datenqualität bisher kaum aufzutauchen. Das hängt damit zusammen, dass insbesondere die großen Sprachmodelle nicht so stark auf eine hohe Datenqualität angewiesen waren. Letztendlich wurden diese Modelle einfach mit enormen Datenmengen und einer entsprechenden Rechenleistung (sowie einem Trainingsansatz, der das ermöglicht) trainiert. Dadurch entstanden aber auch enorme Kosten, die nur sehr wenige, große Technologiekonzerne wirklich stemmen konnten.
Für kleinere und mittlere Unternehmen hierzulande ist Datenqualität allerdings der Schlüssel, der die Tür zu eigenen KI-Modellen öffnen kann. Denn gute Datenqualität sorgt im Allgemeinen dafür, dass man weniger Daten benötigt, um gute Ergebnisse zu erzielen. Das wiederum ermöglicht das Trainieren kleinerer Modelle mit entsprechend geringerem Aufwand, was KI letztendlich auch für kleine und mittlere Unternehmen wirtschaftlich machen kann.
Was bedeutet KI-Datenqualität konkret?
Datenqualität im Kontext von Künstlicher Intelligenz bedeutet in erster Linie, dass die Daten ganz grundsätzlich die Informationen enthalten müssen, die ein Machine-Learning-Modell braucht, um daraus zum Beispiel eine Vorhersage oder Entscheidung treffen zu können. Konkret ergibt sich dadurch die Notwendigkeit, dass die Daten und der KI-Anwendungsfall aufeinander abgestimmt sein müssen. Darauf aufbauend sollten Unternehmen dann sicherstellen, dass die folgenden Kriterien der KI-Datenqualität gegeben sind.
Bei der Feature-Auswahl (also den Daten, die das Modell als Input bekommt) sollte man nicht nur darauf achten, dass die passenden Features mit hohem Informationsgehalt ausgewählt werden, sondern auch darauf, dass eine möglichst aussagekräftige Repräsentation gewählt wird. So könnte zum Beispiel das Feature „sportliche Aktivität“ entweder mit „ja/nein“ oder mit „Stunden pro Woche“ erfasst werden. Dann wiederum ist Konsistenz vor allem in Bezug auf Format oder Sprache entscheidend. Mit unterschiedlichen Formaten beispielsweise bei Typenkennzeichnungen kann ein Machine-Learning-Modell nur schwer umgehen. Zur Datenqualität gehört dann noch eine entsprechende Balance im Datensatz. Das bedeutet, dass möglichst alle unterschiedlichen Trainingsbeispiele in einer angemessenen Menge vorhanden sind. Damit lässt sich verhindern, dass das Modell später im echten Einsatz schlecht performt. Darüber hinaus sollte ein gewisses Maß an Vollständigkeit gegeben sein. Wenn hin und wieder Werte im Datensatz fehlen, ist das nicht schlimm, aber größere Lücken in den Daten sollten vermieden werden. Wenn es dann noch gelingt, möglichst wenige Outlier (Ausreißer, also Datenpunkte, die zum Beispiel durch einen Tippfehler massiv von den anderen abweichen) entstehen zu lassen und die Daten aktuell zu halten, dann kann man von einer guten Datenqualität sprechen. Im Übrigen gilt das Gebot der Datenqualität auch für Daten, die von bereits fertig trainierten KI-Lösungen wie den Sprachmodellen verwendet werden.