Model Collapse: Datenqualität und KI-Hygiene

← Kapitel 15 ↑ Zur Übersicht Kapitel 17 →

KI-Werkzeuge werden besser – aber nur dann, wenn die Daten, mit denen sie arbeiten, verlässlich und überprüfbar sind. Dieses Kapitel erklärt ein unterschätztes Risiko namens Model Collapse und zeigt fünf praktische Gegenmaßnahmen.

🧹

Datenhygiene

Eingabedaten sauber halten, bevor sie in KI-Systeme fließen.

🏷️

Herkunftsnachweise

Nachvollziehbar machen, woher eine Information stammt.

✅

Freigabeprozesse

KI-Entwürfe werden erst nach menschlicher Prüfung offiziell.

🗂️

Getrennte Wissensspeicher

Original-, Entwurfs- und Archivdaten sauber trennen.

📊

Qualitätsmessung

Regelmäßig prüfen, ob KI-Ausgaben noch verlässlich sind.

Was ist Model Collapse?

Model Collapse bezeichnet den schleichenden Qualitätsverlust von KI-Modellen, wenn sie zunehmend auf KI-generierten Inhalten trainiert werden – statt auf echten, menschlich geprüften Daten.

Das klingt abstrakt, ist aber bereits heute relevant: Wer KI-generierte Texte, Zusammenfassungen oder Antworten ungeprüft übernimmt, veröffentlicht oder in Wissensdatenbanken speichert, füttert zukünftige KI-Systeme mit Material, das bereits einmal durch einen KI-Filter gelaufen ist.

Typische Folgen:

Informationen werden unschärfer und stereotyper
Randthemen und Minderheitspositionen verschwinden
Fehler und Halluzinationen pflanzen sich fort
Die Vielfalt der Ausgaben nimmt ab

Merksatz KI kann nicht beurteilen, ob ihre eigenen Ausgaben korrekt sind. Nur Menschen können diese Kontrolle übernehmen – und nur wenn sie wissen, was KI-generiert ist und was nicht.

Datenhygiene

Datenhygiene bedeutet: Eingabedaten sauber halten, bevor sie in KI-Systeme fließen.

Prüfe Quellen, bevor du Inhalte in eine KI eingibst oder als Kontext verwendest
Halte interne Dokumente, Protokolle und Wissensdatenbanken frei von unkritisch übernommenen KI-Texten
Trenne Rohdaten (originale Texte, Originaldokumente) von bearbeiteten Fassungen – und kennzeichne den Unterschied
Lösche oder archiviere veraltete Daten, bevor du sie als Kontext einsetzt – veraltete Infos + KI = falsche Antworten

Tipp Erstelle eine einfache Regel für dein Team: „KI-Ausgaben kommen nicht ungeprüft in die Wissensdatenbank." Das allein verhindert die größten Qualitätsprobleme.

Herkunftsnachweise

Herkunftsnachweise beantworten die Frage: Woher stammt diese Information? In einer Welt, in der KI-Texte kaum noch von menschlichen Texten unterscheidbar sind, ist die Herkunft einer Information ein eigenständiges Qualitätsmerkmal.

Kennzeichne KI-generierte Texte intern (z. B. [KI-Entwurf, nicht geprüft])
Halte fest, welche Quellen in einen KI-generierten Text eingeflossen sind
Verlinke oder archiviere Originalquellen, auf die sich KI-Ausgaben beziehen
Nutze Versionierung, um nachvollziehbar zu machen, was zu welchem Zeitpunkt galt

Hinweis In regulierten Bereichen (Recht, Medizin, Buchhaltung) sind Herkunftsnachweise oft gesetzliche Pflicht – nicht nur gute Praxis. Auch außerhalb davon schützen sie vor Haftungsrisiken und Reputationsschäden.

Freigabeprozesse

Ein Freigabeprozess sorgt dafür, dass KI-generierte Inhalte nicht automatisch zu offiziellen Inhalten werden – ohne menschliche Prüfung. Das muss nicht aufwendig sein. Schon ein Vier-Augen-Prinzip reicht für viele Teams aus.

Lege fest, welche Inhalte freigegeben werden müssen (z. B. alles, was nach außen geht oder in eine Wissensdatenbank kommt)
Bestimme, wer die Freigabe erteilt (Autor, Vorgesetzter, Fachexperte)
Nutze einfache Status-Markierungen: Entwurf, In Prüfung, Freigegeben
Dokumentiere, wer wann freigegeben hat – das schützt im Zweifel

Beispiel-Workflow für Teams:

Schritt	Wer	Was
1. Erstellen	Mitarbeiter + KI	Entwurf erstellen
2. Prüfen	Fachlich Verantwortlicher	Inhalt auf Richtigkeit prüfen
3. Freigeben	Verantwortlicher	Status auf „Freigegeben" setzen
4. Speichern	Alle	Nur freigegebene Inhalte in Wissensdatenbank

Wichtig Ohne Freigabeprozess ist jedes KI-Werkzeug ein Risiko – nicht weil die KI schlecht ist, sondern weil kein Mensch mehr weiß, welche Inhalte verlässlich sind.

Getrennte Wissensspeicher

Ein Wissensspeicher ist alles, woraus eine KI schöpft: Dokumente, Protokolle, Handbücher, Gesprächsverläufe, Datenbankeinträge. Das Problem entsteht, wenn verschiedene Inhaltstypen unkontrolliert vermischt werden.

Originaldokumente

Menschlich erstellte, geprüfte Quellen. Höchste Verlässlichkeit.

KI-Entwürfe

Noch nicht freigegebene KI-Ausgaben. Nur intern, deutlich markiert.

Freigegebene Endfassungen

Geprüft und offiziell. Darf in Wissensdatenbanken fließen.

Nutze unterschiedliche Ordner, Dateipfade oder Datenbanken für diese Kategorien
Wenn du ein KI-System mit eigenem Kontext nutzt (z. B. per Datei-Upload oder RAG), stelle sicher, dass nur geprüfte Inhalte eingespielt werden
Bereinige den Wissensspeicher regelmäßig – mindestens vierteljährlich

Tipp Auch eine einfache Ordnerstruktur hilft: /freigegeben/, /entwuerfe/, /archiv/. Das kostet wenig Aufwand und verhindert, dass KI-Systeme auf veralteten oder ungeprüften Materialien aufbauen.

Regelmäßige Qualitätsmessung

Qualitätsmessung bedeutet: systematisch prüfen, ob die Ausgaben eines KI-Systems noch verlässlich, nützlich und korrekt sind. Ohne Messung weiß niemand, ob sich die Qualität schleichend verschlechtert.

Teste KI-Systeme regelmäßig mit bekannten Beispielfragen und prüfe, ob die Antworten noch stimmen
Sammle Rückmeldungen aus dem Team: Wann war eine KI-Ausgabe falsch oder irreführend?
Vergleiche Ausgaben über Zeit: Hat sich die Qualität verändert?
Nutze eine einfache Bewertungsskala: ✓ korrekt / ~ ungefähr / ✗ falsch

Einfaches Qualitätsprotokoll (Vorlage):

Datum	Aufgabe	Ergebnis	Bewertung	Aktion
01.06.	E-Mail Entwurf Beschwerdebrief	Strukturiert, aber zu formell	~	Ton angepasst
03.06.	Zusammenfassung Protokoll	Korrekt, vollständig	✓	Keine
05.06.	Recherche zu Steueränderung	Veraltete Info (2022)	✗	Quelle manuell geprüft

Merksatz Was du nicht misst, weißt du nicht. Regelmäßige Qualitätsprüfung ist keine Bürokratie – sie ist Selbstschutz.

Zusammenfassung

Model Collapse passiert überall dort, wo KI-generierte Inhalte ohne Kontrolle in Wissenssysteme einfließen. Die fünf Gegenmaßnahmen im Überblick:

Maßnahme	Schutz gegen
Datenhygiene	Kontamination durch schlechte Eingaben
Herkunftsnachweise	Verlust von Nachvollziehbarkeit
Freigabeprozesse	Unkontrollierte Verbreitung von Entwürfen
Getrennte Wissensspeicher	Vermischung von geprüftem und ungeprüftem Material
Regelmäßige Qualitätsmessung	Schleichende Qualitätsverschlechterung

Tipp Diese Maßnahmen lassen sich auch in kleinen Teams mit wenig Aufwand umsetzen – und sie sind eine Investition, die sich schnell auszahlt.

← Kapitel 15 ↑ Zur Übersicht Kapitel 17 →