Immer weniger aktuelle Daten für das Training: Künstliche Intelligenz in der Krise

KI hat das Internet in den letzten Monaten stark verändert. Die Stärke von KI-Sprachmodellen beruht auf Daten, die sie für ihr Training aus dem Netz ziehen. Doch immer mehr Webseiten blockieren die Bots großer KI-Firmen wie OpenAI. Dämpft das den KI-Boom? Oder stärkt der Trend paradoxerweise die großen KI-Unternehmen, während die kleinen verdrängt werden?

6 Minuten
Eine KI-erzeugte Bildwand in der U-Bahn von Shanghai, die ein buntes Fantasy-Schloss zeigt. Generative KI dringt immer weiter in den Alltag vor. Doch ein zunehmender Mangel an Trainingsdaten könnte die Qualität solcher Inhalte drastisch verschlechtern.

Gibt es etwas, das KI-Modelle verrückt macht? Ja, sagen Forscher der Rice University in Houston. Sie haben bei KI-Bildgeneratoren eine Art „Rinderwahnsinn“ festgestellt, bei Kühen eine neurodegenerative Krankheit. Der „Wahnsinn“ der KI entsteht, weil die Algorithmen immer mehr aus Daten lernen, die sie selbst erzeugt haben. Eine Ursache: Von Menschen erzeugte Daten werden den KI-Modellen zunehmend verweigert. Eine weitere Studie beziffert nun den Datenentzug und stellt beunruhigende Prognosen.

Die meistgenutzte Art von KI, das Deep Learning, ist besonders datenhungrig. Um Muster in Daten zu erkennen, benötigt es sehr viele Beispiele als Trainingsmaterial. Große Sprachmodelle wie ChatGPT, Gemini oder Bloom wurden mit den Texten von Milliarden von Webseiten trainiert. Um aktuell zu bleiben oder sich zu verbessern, nutzen sie auch weiterhin das Internet als Quelle für Trainingsdaten.

Doch innerhalb eines Jahres haben viele Webseiten den Nachschub an Daten für das KI-Training blockiert. Das zeigt eine Studie der Data Provenance Initiative, eine Forschergruppe um Wissenschaftler des Massachusetts Institute of Technology.

Große KI-Anbieter erleben „Zustimmungskrise“

Die großen KI-Modelle schöpfen ihre Daten vor allem aus frei zugänglichen Webseitenarchiven, wie „Common Crawl“, „C4“ oder „Dolma“. Allein Common Crawl hat seit 2008 Milliarden von Webseiten gesammelt und archiviert. Auch Forscher oder Entwickler von Anwendungen wie Suchmaschinen verwenden die Archive seit vielen Jahren für ihre Arbeit.