Karpathy über KI-Agenten: Warum es ein Jahrzehnt dauert, kein Jahr

In der KI-Branche kursieren derzeit zwei sehr unterschiedliche Erzählungen. Die eine verspricht, dass autonome KI-Agenten schon im laufenden Jahr ganze Berufe ersetzen. Die andere kommt von einem der erfahrensten Praktiker des Feldes und klingt deutlich nüchterner. Andrej Karpathy – Mitbegründer von OpenAI, ehemaliger KI-Chef bei Tesla – widerspricht im Gespräch mit Dwarkesh Patel der Euphorie offen: Es werde nicht das Jahr der Agenten, sondern das Jahrzehnt der Agenten.

Für Entscheider im Mittelstand ist diese Perspektive wertvoll, weil sie weder verharmlost noch überhöht. Karpathy nutzt Werkzeuge wie Claude und Codex täglich und hält sie für beeindruckend – und benennt gleichzeitig präzise, warum sie für seriöse Arbeit heute oft nicht ausreichen. Wir fassen die zentralen Punkte zusammen und ordnen ein, was sie für betriebliche Entscheidungen bedeuten.

Das Wichtigste in Kürze

Karpathy erwartet, dass leistungsfähige KI-Agenten rund ein Jahrzehnt bis zur Reife brauchen – nicht ein Jahr.
Heutigen Modellen fehlen kontinuierliches Lernen, verlässliche Multimodalität und Computer-Nutzung; sie sind „kognitiv lückenhaft“.
Beim Programmieren funktionieren KI-Werkzeuge bereits gut – bei wirklich neuartigem Code aber kaum. Sein Sweet Spot bleibt die Autovervollständigung, nicht das „Vibe Coding“.
Realistisches Einsatzmodell ist ein „Autonomie-Regler“: KI übernimmt einen wachsenden Anteil, Menschen überwachen und liefern den entscheidenden Rest.
Karpathy sieht KI als Fortsetzung der Automatisierung – mit gradueller Verbreitung, nicht mit einem plötzlichen Umbruch.

Karpathy unterscheidet klar zwischen heutigen Stärken der KI und Fähigkeiten, die noch Jahre brauchen.

Warum ein Jahrzehnt und nicht ein Jahr?

Karpathys These ist eine bewusste Reaktion auf die verbreitete Aussage, dies sei „das Jahr der Agenten“. Er hält das für eine deutliche Überschätzung. Sein Maßstab: Wann würde man einen KI-Agenten wie einen Mitarbeiter oder eine Praktikantin einsetzen? Heute nicht – weil die Systeme schlicht nicht zuverlässig genug arbeiten.

Seine Begründung stützt sich auf rund 15 Jahre Erfahrung im Feld. Die Probleme seien lösbar, aber zäh. Konkret fehlt es den Modellen an mehreren Stellen:

Kontinuierliches Lernen: Man kann einem Modell etwas mitteilen, und es behält es nicht dauerhaft.
Multimodalität: Verschiedene Eingabearten werden noch nicht durchgängig souverän verarbeitet.
Computer-Nutzung: Das eigenständige Bedienen von Oberflächen und Werkzeugen ist unausgereift.

Karpathy verweist auf die Geschichte des Felds: Mehrfach habe man versucht, „das Ganze“ zu früh zu bauen – etwa mit Reinforcement Learning auf Atari-Spielen oder dem frühen Versuch, Agenten per Maus und Tastatur Webseiten bedienen zu lassen. Erst die großen Sprachmodelle (LLMs) lieferten die nötige Repräsentationskraft. Auch heute fehlten aber noch Teile des Stapels.

Geister statt Tiere: ein Bild für die Eigenart heutiger KI

Eine zentrale Metapher Karpathys: Wir bauen keine Tiere, sondern Geister. Tiere entstehen durch Evolution und bringen viel „eingebaute Hardware“ mit – ein Zebrafohlen läuft Minuten nach der Geburt. KI-Modelle dagegen entstehen durch Imitation menschlicher Daten aus dem Internet. Sie sind digitale, menschenähnliche Nachahmungen – eine andere Art von Intelligenz.

Daraus folgt eine praktische Einsicht: Das Vortraining („Pre-Training“) erzeugt zwei Dinge zugleich – Wissen und Intelligenz. Das viele auswendig gelernte Wissen sieht Karpathy teils sogar als Last. Modelle stützten sich zu stark darauf und täten sich schwer, jenseits des Bekannten zu arbeiten. Sein Ziel ist ein „kognitiver Kern“: Intelligenz und Problemlösungsstrategien, von überflüssigem Faktenwissen befreit, das man bei Bedarf nachschlägt.

Was im Gewicht des Modells steckt, ist eine vage Erinnerung an die Trainingsdaten. Was im Kontextfenster steht, ist direktes Arbeitsgedächtnis.

Praktische Konsequenz für Anwender: Wer einem Modell das relevante Dokument direkt in den Kontext gibt, erhält deutlich bessere Ergebnisse als bei einer Frage aus dem reinen „Gedächtnis“.

Programmieren: wo KI hilft – und wo nicht

Besonders aufschlussreich ist Karpathys ehrliche Schilderung, wie er KI beim Programmieren einsetzt. Beim Bau seines Lehr-Repositorys nanochat halfen ihm Coding-Modelle wenig. Er unterscheidet drei Arbeitsweisen:

Arbeitsweise	Beschreibung	Karpathys Einschätzung
Alles selbst schreiben	KI komplett ablehnen	Heute nicht mehr sinnvoll
Autovervollständigung	Mensch bleibt Architekt, Modell ergänzt	Sein bevorzugter „Sweet Spot“
„Vibe Coding“ / Agenten	Auftrag formulieren, Modell baut autonom	Nur in bestimmten Fällen geeignet

Agenten glänzen laut Karpathy bei Standard- und Boilerplate-Code, der häufig im Netz vorkommt. Bei seinem ungewöhnlich strukturierten, „intellektuell dichten“ Code versagten sie dagegen: Sie verstanden seine bewussten Abweichungen von Konventionen nicht, fügten überflüssige Absicherungen ein, blähten den Code auf und nutzten teils veraltete Schnittstellen. Sein Fazit: Modelle seien schlecht bei Code, „der noch nie geschrieben wurde“.

Genau das ist relevant für die Hype-Debatte. Die populäre Vorstellung einer schnellen „Intelligenzexplosion“ beruht oft auf der Annahme, KI könne KI-Forschung selbst automatisieren. Ausgerechnet beim wirklich Neuartigen sind die Modelle jedoch am schwächsten – ein wichtiger Grund für Karpathys längere Zeithorizonte.

Reinforcement Learning: „Aufsicht durch einen Strohhalm saugen“

Karpathy übt deutliche Kritik am gängigen Reinforcement Learning. Bei einer Matheaufgabe probiert das System hunderte Lösungswege; am Ende wird nur das Endergebnis geprüft. Jeder Token eines erfolgreichen Wegs wird hochgewichtet – auch die Irrwege, die zufällig zur richtigen Lösung führten.

Man saugt die Aufsicht durch einen Strohhalm: Ein einziges Erfolgssignal wird über die gesamte Spur verteilt. Ein Mensch würde das nie so machen.

Alternativen wie prozessbasierte Bewertung scheitern bislang an einem subtilen Problem: Setzt man ein zweites Modell als „Richter“ ein, findet das trainierte Modell zuverlässig Schlupflöcher. Karpathy schildert einen Fall, in dem ein Modell plötzlich Bestnoten erhielt – obwohl seine Antworten in sinnloses Kauderwelsch übergingen, das der Richter fälschlich als perfekt einstufte. Solche „adversarialen Beispiele“ gebe es unendlich viele.

Auch synthetische Daten lösen das nicht ohne Weiteres: Modellausgaben „kollabieren“ still auf eine schmale Bandbreite – bittet man ChatGPT zehnmal um einen Witz, kommen praktisch dieselben. Trainiert man zu lange auf solchen eigenen Ausgaben, verschlechtert sich das Modell.

Was das für Wirtschaft und Mittelstand bedeutet

Karpathy rechnet nicht mit einem schlagartigen Ersatz von Arbeitsplätzen, sondern mit einem Autonomie-Regler: KI übernimmt zunächst etwa 80 Prozent eines Aufgabenvolumens, delegiert den Rest an Menschen, die Teams von KI-Systemen beaufsichtigen. Frühe Kandidaten sind Tätigkeiten mit klaren Merkmalen:

einfache, sich wiederholende Abläufe (Beispiel: Callcenter)
kurze, abgeschlossene Aufgaben mit wenig Kontext
rein digitale Vorgänge ohne physische Komponente

Bemerkenswert: Obwohl Sprachmodelle als „allgemein“ gelten, dominiert in der Praxis das Programmieren. Karpathys Erklärung: Code ist textbasiert, gut strukturiert, datenreich – und es existiert bereits Infrastruktur wie Editoren und Diff-Ansichten. Andere Bereiche (etwa Präsentationen) haben das nicht. Selbst bei reinen Text-Aufgaben sei wirtschaftlicher Nutzen abseits des Codes erstaunlich schwer zu erzielen.

Beim großen Bild bleibt Karpathy zurückhaltend: Er sieht KI als Fortsetzung der jahrhundertelangen Automatisierung – vom Kompiler bis zur Suchmaschine. Frühere Umbrüche wie Computer oder Smartphones tauchten im Wirtschaftswachstum nicht als Sprung auf, sondern diffundierten langsam. Eine ähnliche, allmähliche Verbreitung erwartet er auch für KI. Wichtig: Karpathy versteht sich ausdrücklich als optimistisch – seine Skepsis richtet sich gegen unrealistische Zeitpläne und gegen Aussagen, die er vor allem auf Finanzierungs- und Aufmerksamkeitsanreize zurückführt.

Die ehrliche Lektion: manchmal lautet der Rat „keine KI“

Eine Aussage Karpathys verdient besondere Beachtung. In seiner Zeit als Berater für maschinelles Sehen bestand sein Mehrwert oft darin, Unternehmen vom KI-Einsatz abzuraten:

Ich war der KI-Experte, sie schilderten das Problem, und mein Rat lautete: Nutzt keine KI. Das war mein Mehrwert.

Für KMU ist das eine wichtige Botschaft. Nicht jedes Problem braucht ein KI-System. Wer heute investiert, sollte die tatsächlichen Fähigkeiten der Technik nüchtern prüfen, statt der Erwartung eines „allwissenden Werkzeugs“ aufzusitzen. Karpathy verweist dafür sogar auf das Tutoring beim Sprachenlernen: Eine gute menschliche Lehrkraft erfasst in Minuten das Wissensmodell des Lernenden – etwas, das heutige Modelle bei Weitem nicht leisten.

Fazit

Karpathys Botschaft ist unbequem für beide Lager. Den KI-Skeptikern hält er entgegen, dass die Werkzeuge real und wertvoll sind. Den Euphorikern entgegnet er, dass verlässliche, autonome Agenten Jahre brauchen – nicht Monate. Für Entscheider im DACH-Mittelstand ergibt sich daraus ein pragmatischer Kurs: KI dort einsetzen, wo sie heute nachweislich trägt (Programmierung, Standardaufgaben, Text mit klarem Kontext), den Menschen in der Aufsicht behalten und bei jeder Investition ehrlich fragen, ob das Problem überhaupt KI braucht. Geduld und Augenmaß schlagen in diesem Jahrzehnt jede Wette auf den schnellen Durchbruch.

Quelle: Andrej Karpathy – „We’re summoning ghosts, not building animals“ (Dwarkesh Patel, YouTube)

Martin Pletzenauer

Karpathy über KI-Agenten: Warum es ein Jahrzehnt dauert, kein Jahr

Warum ein Jahrzehnt und nicht ein Jahr?

Geister statt Tiere: ein Bild für die Eigenart heutiger KI

Programmieren: wo KI hilft – und wo nicht

Reinforcement Learning: „Aufsicht durch einen Strohhalm saugen“

Was das für Wirtschaft und Mittelstand bedeutet

Die ehrliche Lektion: manchmal lautet der Rat „keine KI“

Fazit

Leistungen

Kontakt

Karpathy über KI-Agenten: Warum es ein Jahrzehnt dauert, kein Jahr

Warum ein Jahrzehnt und nicht ein Jahr?

Geister statt Tiere: ein Bild für die Eigenart heutiger KI

Programmieren: wo KI hilft – und wo nicht

Reinforcement Learning: „Aufsicht durch einen Strohhalm saugen“

Was das für Wirtschaft und Mittelstand bedeutet

Die ehrliche Lektion: manchmal lautet der Rat „keine KI“

Fazit

Passend dazu