16

Model Collapse: Datenqualität und KI-Hygiene

→ Warum Datenqualität wichtig ist – und wie du sie sicherstellst

KI-Werkzeuge werden besser – aber nur dann, wenn die Daten, mit denen sie arbeiten, verlässlich und überprüfbar sind. Dieses Kapitel erklärt ein unterschätztes Risiko namens Model Collapse und zeigt fünf praktische Gegenmaßnahmen.

🧹
Datenhygiene
Eingabedaten sauber halten, bevor sie in KI-Systeme fließen.
🏷️
Herkunftsnachweise
Nachvollziehbar machen, woher eine Information stammt.
Freigabeprozesse
KI-Entwürfe werden erst nach menschlicher Prüfung offiziell.
🗂️
Getrennte Wissensspeicher
Original-, Entwurfs- und Archivdaten sauber trennen.
📊
Qualitätsmessung
Regelmäßig prüfen, ob KI-Ausgaben noch verlässlich sind.

Was ist Model Collapse?

Model Collapse bezeichnet den schleichenden Qualitätsverlust von KI-Modellen, wenn sie zunehmend auf KI-generierten Inhalten trainiert werden – statt auf echten, menschlich geprüften Daten.

Das klingt abstrakt, ist aber bereits heute relevant: Wer KI-generierte Texte, Zusammenfassungen oder Antworten ungeprüft übernimmt, veröffentlicht oder in Wissensdatenbanken speichert, füttert zukünftige KI-Systeme mit Material, das bereits einmal durch einen KI-Filter gelaufen ist.

Typische Folgen:

  • Informationen werden unschärfer und stereotyper
  • Randthemen und Minderheitspositionen verschwinden
  • Fehler und Halluzinationen pflanzen sich fort
  • Die Vielfalt der Ausgaben nimmt ab
Merksatz KI kann nicht beurteilen, ob ihre eigenen Ausgaben korrekt sind. Nur Menschen können diese Kontrolle übernehmen – und nur wenn sie wissen, was KI-generiert ist und was nicht.

Datenhygiene

Datenhygiene bedeutet: Eingabedaten sauber halten, bevor sie in KI-Systeme fließen.

  • Prüfe Quellen, bevor du Inhalte in eine KI eingibst oder als Kontext verwendest
  • Halte interne Dokumente, Protokolle und Wissensdatenbanken frei von unkritisch übernommenen KI-Texten
  • Trenne Rohdaten (originale Texte, Originaldokumente) von bearbeiteten Fassungen – und kennzeichne den Unterschied
  • Lösche oder archiviere veraltete Daten, bevor du sie als Kontext einsetzt – veraltete Infos + KI = falsche Antworten
Tipp Erstelle eine einfache Regel für dein Team: „KI-Ausgaben kommen nicht ungeprüft in die Wissensdatenbank." Das allein verhindert die größten Qualitätsprobleme.

Herkunftsnachweise

Herkunftsnachweise beantworten die Frage: Woher stammt diese Information? In einer Welt, in der KI-Texte kaum noch von menschlichen Texten unterscheidbar sind, ist die Herkunft einer Information ein eigenständiges Qualitätsmerkmal.

  • Kennzeichne KI-generierte Texte intern (z. B. [KI-Entwurf, nicht geprüft])
  • Halte fest, welche Quellen in einen KI-generierten Text eingeflossen sind
  • Verlinke oder archiviere Originalquellen, auf die sich KI-Ausgaben beziehen
  • Nutze Versionierung, um nachvollziehbar zu machen, was zu welchem Zeitpunkt galt
Hinweis In regulierten Bereichen (Recht, Medizin, Buchhaltung) sind Herkunftsnachweise oft gesetzliche Pflicht – nicht nur gute Praxis. Auch außerhalb davon schützen sie vor Haftungsrisiken und Reputationsschäden.

Freigabeprozesse

Ein Freigabeprozess sorgt dafür, dass KI-generierte Inhalte nicht automatisch zu offiziellen Inhalten werden – ohne menschliche Prüfung. Das muss nicht aufwendig sein. Schon ein Vier-Augen-Prinzip reicht für viele Teams aus.

  • Lege fest, welche Inhalte freigegeben werden müssen (z. B. alles, was nach außen geht oder in eine Wissensdatenbank kommt)
  • Bestimme, wer die Freigabe erteilt (Autor, Vorgesetzter, Fachexperte)
  • Nutze einfache Status-Markierungen: Entwurf, In Prüfung, Freigegeben
  • Dokumentiere, wer wann freigegeben hat – das schützt im Zweifel

Beispiel-Workflow für Teams:

SchrittWerWas
1. ErstellenMitarbeiter + KIEntwurf erstellen
2. PrüfenFachlich VerantwortlicherInhalt auf Richtigkeit prüfen
3. FreigebenVerantwortlicherStatus auf „Freigegeben" setzen
4. SpeichernAlleNur freigegebene Inhalte in Wissensdatenbank
Wichtig Ohne Freigabeprozess ist jedes KI-Werkzeug ein Risiko – nicht weil die KI schlecht ist, sondern weil kein Mensch mehr weiß, welche Inhalte verlässlich sind.

Getrennte Wissensspeicher

Ein Wissensspeicher ist alles, woraus eine KI schöpft: Dokumente, Protokolle, Handbücher, Gesprächsverläufe, Datenbankeinträge. Das Problem entsteht, wenn verschiedene Inhaltstypen unkontrolliert vermischt werden.

Originaldokumente
Menschlich erstellte, geprüfte Quellen. Höchste Verlässlichkeit.
KI-Entwürfe
Noch nicht freigegebene KI-Ausgaben. Nur intern, deutlich markiert.
Freigegebene Endfassungen
Geprüft und offiziell. Darf in Wissensdatenbanken fließen.
  • Nutze unterschiedliche Ordner, Dateipfade oder Datenbanken für diese Kategorien
  • Wenn du ein KI-System mit eigenem Kontext nutzt (z. B. per Datei-Upload oder RAG), stelle sicher, dass nur geprüfte Inhalte eingespielt werden
  • Bereinige den Wissensspeicher regelmäßig – mindestens vierteljährlich
Tipp Auch eine einfache Ordnerstruktur hilft: /freigegeben/, /entwuerfe/, /archiv/. Das kostet wenig Aufwand und verhindert, dass KI-Systeme auf veralteten oder ungeprüften Materialien aufbauen.

Regelmäßige Qualitätsmessung

Qualitätsmessung bedeutet: systematisch prüfen, ob die Ausgaben eines KI-Systems noch verlässlich, nützlich und korrekt sind. Ohne Messung weiß niemand, ob sich die Qualität schleichend verschlechtert.

  • Teste KI-Systeme regelmäßig mit bekannten Beispielfragen und prüfe, ob die Antworten noch stimmen
  • Sammle Rückmeldungen aus dem Team: Wann war eine KI-Ausgabe falsch oder irreführend?
  • Vergleiche Ausgaben über Zeit: Hat sich die Qualität verändert?
  • Nutze eine einfache Bewertungsskala: ✓ korrekt / ~ ungefähr / ✗ falsch

Einfaches Qualitätsprotokoll (Vorlage):

DatumAufgabeErgebnisBewertungAktion
01.06.E-Mail Entwurf BeschwerdebriefStrukturiert, aber zu formell~Ton angepasst
03.06.Zusammenfassung ProtokollKorrekt, vollständigKeine
05.06.Recherche zu SteueränderungVeraltete Info (2022)Quelle manuell geprüft
Merksatz Was du nicht misst, weißt du nicht. Regelmäßige Qualitätsprüfung ist keine Bürokratie – sie ist Selbstschutz.

Zusammenfassung

Model Collapse passiert überall dort, wo KI-generierte Inhalte ohne Kontrolle in Wissenssysteme einfließen. Die fünf Gegenmaßnahmen im Überblick:

MaßnahmeSchutz gegen
DatenhygieneKontamination durch schlechte Eingaben
HerkunftsnachweiseVerlust von Nachvollziehbarkeit
FreigabeprozesseUnkontrollierte Verbreitung von Entwürfen
Getrennte WissensspeicherVermischung von geprüftem und ungeprüftem Material
Regelmäßige QualitätsmessungSchleichende Qualitätsverschlechterung
Tipp Diese Maßnahmen lassen sich auch in kleinen Teams mit wenig Aufwand umsetzen – und sie sind eine Investition, die sich schnell auszahlt.