Drohender KI-Kollaps wegen KI-generierter Trainingsdaten

News

KI-Modelle sabotieren sich selbst und generieren immer mehr schlechten Output, weil sie KI-generierte Daten fürs Training verwenden. Dadurch könnten sie dysfunktional werden, wie eine Studie der Rice Universität in Houston, Texas herausfand.

(Source: Tine Ivanič / Unsplash)

KI-Modelle werden normalerweise mit von Menschen erstellten Daten trainiert. Wenn sie aber mit KI-generierten Daten "gefüttert" werden, könnten sie dysfunktional werden und nur schlechten Output generieren, wie "Heise" schreibt.

Das Szenario mit den KI-generierten Trainingsdaten spielten Forschende der Rice Universität in Houston, Texas, durch. Für ihre Forschungsarbeit verwendeten sie generative Bilderzeugung, um das Problem zu visualisieren.

KI-Datenschleifen

In drei verschiedenen Versuchsversionen untersuchten die Forschenden solche sogenannten selbst konsumierenden Trainingsschleifen:

Vollsynthetische Schleife: Die Forschenden fütterten aufeinanderfolgende Generationen eines generativen Modells mit synthetischen Daten, die von früheren Generationen erstellt wurden.
Synthetische Verstärkungsschleife: Die Forschenden stellten für jede Generation einen Trainingsdatensatz aus synthetischen Daten aus früheren Generationen und einem festen Satz realer Trainingsdaten zur Verfügung.
Frische Datenschleife: Die Forschenden gaben den Modellen eine Mischung aus synthetischen Daten aus früheren Generationen und einem frischen Satz realer Trainingsdaten.

Die fortschreitenden Iterationen der Schleifen zeigen, dass die Modelle im Laufe der Zeit zunehmend verzerrte Bilder erzeugen. Der Effekt sei umso stärker, je weniger "frische Daten" die Modelle für das Training erhalten. Man erkenne die fortschreitende Verarmung der generierten Inhalte, heisst es weiter. Bilder von Gesichtern werden zunehmend von gitterartigen Narben (generativen Artefakten) durchzogen oder sehen immer mehr wie dieselbe Person aus.

KI-Kollaps

An KI-generierten Bildern von Personen, die sich gleichen, kann man die fortschreitende Verarmung der generierten Inhalte erkennen. (Source: zVg)

Aber auch der Mensch trage zu einem Teil zum Problem bei, da man zum Beispiel meistens Fotos von lachenden Menschen macht und die fotografierten Pflanzen grösstenteils Blumen seien. Die mit diesen Bildern trainierte KI könnte so zum Schluss kommen, dass die meisten Pflanzen Blumen sind und Menschen sehr oft lächeln.

Der "Datenrinderwahn"

"Die Probleme entstehen, wenn dieses Training mit synthetischen Daten immer wieder wiederholt wird und es eine Art Feedbackschleife bildet", sagt Richard Baraniuk, Professor Elektrotechnik und Computertechnik an der Rice-Universät. "Das bezeichnen wir als autophagische oder selbstkonsumierende Schleife." So könnten die neuen Modelle schon nach wenigen Generationen eines solchen Trainings irreparabel beschädigt werden.

"Dies wurde von einigen als Modellkollaps bezeichnet, etwa von Kollegen im Kontext grosser Sprachmodelle (LLMs)", führt Baraniuk aus. "Wir finden jedoch den Begriff 'Model Autophagy Disorder' (MAD) passender, in Anlehnung an den Rinderwahnsinn." Der Begriff "Autophagie" ist eine Anspielung auf die tödliche Krankheit, die in den 80er-Jahren grosse Aufmerksamkeit bekam. Damals wurde bekannt, dass Kühe mit den verarbeiteten Überresten ihrer geschlachteten Artgenossen gefüttert und so infiziert wurden.

Um dem KI-Kollaps entgegenzuwirken, sollten KI-Inhalte stets gekennzeichnet werden, damit KI-Entwickler diese von den Trainingsdaten ausschliessen können, heisst es weiter. Die Nachfrage nach von Menschen generierten Daten sei demnach hoch und so würden menschengemachte Inhalte wertvoll bleiben.

Die vollständige Studie "Self-Consuming Generative Models Go MAD" finden Sie hier (PDF).

Der AI Act der Europäischen Union ist am 2. August in Kraft getreten. Mit dem neuen KI-Gesetz regelt die EU den Einsatz künstlicher Intelligenz. Mehr dazu lesen Sie hier.