Studie: Wie zuverlässig arbeiten KI-Agenten heute?

KI-Agenten sollen Präsentationen erstellen, Dokumente bearbeiten, Projekte koordinieren oder ganze Workflows automatisieren. Anbieter wie OpenAI, Google oder Anthropic treiben das Thema aktuell massiv voran. In vielen Unternehmen entsteht dadurch der Eindruck, dass digitale KI-Mitarbeitende kurz vor dem produktiven Durchbruch stehen. Außerdem experimentieren sie bereits mit sogenannten „Agentic AI“-Systemen und testen erste autonome Workflows im Arbeitsalltag. Die Realität sieht allerdings deutlich komplizierter aus. Eine neue Studie zeigt, dass moderne KI-Systeme bei längeren Arbeitsprozessen überraschend häufig Inhalte verlieren, Dokumente beschädigen oder kritische Fehler verursachen. Besonders brisant: Selbst aktuelle Spitzenmodelle schneiden deutlich schlechter ab, sobald komplexe Wissensarbeit über viele Interaktionen hinweg simuliert wird.

Damit liefert die Untersuchung einen wichtigen Realitätscheck für Unternehmen, die aktuell stark auf autonome KI-Agenten setzen.

Die Studie untersucht reale Wissensarbeit statt isolierte KI-Aufgaben

Viele KI-Benchmarks testen Systeme bislang nur mit kurzen Einzelaufgaben. Modelle beantworten Fragen, schreiben Code oder lösen einzelne Probleme innerhalb weniger Sekunden. Genau das spiegelt den realen Unternehmensalltag allerdings kaum wider. In der Praxis arbeiten KI-Systeme häufig über längere Zeiträume hinweg an Dokumenten, verändern Inhalte mehrfach, greifen auf verschiedene Datenquellen zu oder bearbeiten Informationen Schritt für Schritt weiter. Genau dort entstehen bislang kaum untersuchte Risiken.

Die Forschenden hinter der Studie wollten deshalb ein realistischeres Bild erzeugen. Dafür entwickelten sie 310 Arbeitsumgebungen aus insgesamt 52 verschiedenen Berufsfeldern. Die getesteten Bereiche reichen von Buchhaltung, wissenschaftlichen Dokumenten, Präsentationen, Datenbanken, Programmcode, Musiknotation, Geodaten und Rezepten bis hin zu komplexen Textbearbeitungen.

Die Modelle mussten dabei Dokumente überarbeiten, Inhalte umstrukturieren, Informationen zusammenführen oder Dateien transformieren. Entscheidend dabei: Die Tests bestanden nicht nur aus einzelnen Aufgaben, sondern aus langen Workflow-Ketten mit bis zu 20 aufeinanderfolgenden Interaktionen. Genau dort beginnen aktuelle KI-Agenten massive Probleme zu entwickeln.

Das eigentliche Problem entsteht erst über längere Workflows

Besonders spannend an der Studie ist die Erkenntnis, dass moderne KI-Systeme in kurzen Demonstrationen oft deutlich besser wirken als im langfristigen Einsatz. Viele Agentic-AI-Demos beeindrucken heute mit schnellen Ergebnissen. Präsentationen entstehen in wenigen Minuten, Dokumente werden automatisch umgeschrieben oder Informationen strukturiert zusammengefasst. Doch dann kommt das Problem: Mit jeder weiteren Bearbeitung steigt das Risiko für Fehler deutlich an. Selbst moderne Frontier-Modelle wie GPT 5.4, Claude 4.6 Opus oder Gemini 3.1 Pro verloren im Verlauf längerer Workflows durchschnittlich rund 25 Prozent des ursprünglichen Inhalts. Über alle getesteten Modelle hinweg lag die durchschnittliche Verschlechterung sogar bei etwa 50 Prozent.

Besonders problematisch ist dabei die Art der Fehler. Die Systeme verschlechtern Inhalte häufig nicht langsam oder gleichmäßig. Stattdessen treten einzelne kritische Ausfälle auf, bei denen plötzlich große Teile eines Dokuments beschädigt oder wichtige Informationen vollständig entfernt werden. Die Forschenden sprechen hier von sogenannten „critical failures“. Diese wenigen gravierenden Fehler verursachen den Großteil der gesamten Qualitätsverluste. Außerdem wirken viele dieser Fehler zunächst plausibel und fallen in der Realität dementsprechend nicht sofort auf. Das Risiko liegt weniger in offensichtlichen Halluzinationen, sondern in stillen Veränderungen innerhalb komplexer Dokumente oder Prozesse.

Große Dokumente verschärfen die Probleme zusätzlich

Die Studie zeigt außerdem, dass aktuelle KI-Agenten besonders schlecht mit langen Dokumenten und komplexem Kontext umgehen können.

Sobald Modelle mit größeren Informationsmengen arbeiten mussten, verschlechterten sich die Ergebnisse deutlich. Zusätzliche Kontextinformationen oder irrelevante Begleitdokumente führten ebenfalls dazu, dass Modelle häufiger Inhalte beschädigten oder Informationen falsch interpretierten.

Das ist vor allem deshalb relevant, weil reale Unternehmensprozesse fast immer aus

mehreren Dokumenten,
langen Chatverläufen,
Wissensdatenbanken,
unterschiedlichen Datenquellen
und vielen parallelen Arbeitsständen bestehen.

Genau diese komplexen Bedingungen gehören aktuell zu den größten Schwächen autonomer KI-Systeme.

Warum Coding-Agenten derzeit erfolgreicher wirken

Die Untersuchung liefert gleichzeitig eine Erklärung dafür, warum viele Coding-Agenten aktuell deutlich leistungsfähiger erscheinen als KI-Systeme für klassische Wissensarbeit. Programmatische Domänen wie Python schnitten in der Studie wesentlich besser ab als textlastige oder kreative Arbeitsbereiche. Viele Modelle erreichten dort nahezu verlustfreie Ergebnisse. Andere Bereiche wie Buchhaltung, kreative Texte, Musiknotation oder komplexe Dokumentbearbeitung entwickelten dagegen deutlich höhere Fehlerquoten.

Der Grund dafür liegt vor allem in der Struktur der Aufgaben. Programmcode folgt klaren Regeln, besitzt eindeutige Syntax und lässt sich vergleichsweise einfach überprüfen. Wissensarbeit funktioniert dagegen wesentlich komplexer: Inhalte sind mehrdeutig, Kontext verändert Bedeutungen, Informationen müssen interpretiert werden und kleine Änderungen können große Auswirkungen haben.

Gerade deshalb bleiben autonome KI-Agenten für klassische Wissensarbeit aktuell deutlich fehleranfälliger als viele Marketingversprechen vermuten lassen.

Agentic AI ist derzeit eher Copilot als Autopilot

Die Ergebnisse der Studie bedeuten nicht, dass KI-Agenten keinen Nutzen für Unternehmen besitzen. Viele Systeme können Prozesse bereits heute erheblich beschleunigen und repetitive Aufgaben effizient unterstützen. Die Untersuchung zeigt allerdings klar, dass Unternehmen aktuelle KI-Agenten eher als unterstützende Copiloten betrachten sollten – nicht als vollständig autonome Mitarbeitende.

Besonders sinnvoll sind derzeit:

klar strukturierte Aufgaben,
technische Automatisierungen,
standardisierte Datenverarbeitung,
unterstützende Assistenzfunktionen
oder begrenzte Workflows mit menschlicher Kontrolle.

Deutlich riskanter bleiben dagegen lange, autonome Wissensprozesse ohne regelmäßige Überprüfung. Dazu gehören beispielsweise:

strategische Dokumente,
Vertragsarbeit,
umfangreiche Textbearbeitung,
komplexe Analysen
oder mehrstufige Unternehmensprozesse.

Interessant ist außerdem, dass zusätzliche Tools die Probleme bisher nicht zuverlässig lösen. Die Forschenden testeten agentische Workflows mit Datei-Tools und Code-Ausführung. Teilweise verschlechterten sich die Ergebnisse dadurch sogar weiter.

Fazit: KI-Agenten entwickeln sich schnell – aber autonome Wissensarbeit bleibt riskant

Die Studie liefert einen wichtigen Gegenpol zum aktuellen Hype rund um Agentic AI. Moderne KI-Systeme entwickeln sich zwar in hoher Geschwindigkeit weiter und erzielen beeindruckende Fortschritte. Gleichzeitig zeigen die Ergebnisse deutlich, dass autonome Wissensarbeit noch erhebliche Schwächen besitzt. Es entstehen Fehler, die Unternehmen teuer zu stehen kommen können.