Anthropic Project Fetch Phase Two: Claude Opus 4.7 steuert Roboter 20-mal schneller als Menschen

Roboterhund im Labor mit Bildschirm, KI steuert autonome Roboter

Anthropic hat am 18. Juni 2026 die zweite Phase seines Robotics-Experiments Project Fetch veröffentlicht. Das Ergebnis: Das Sprachmodell Claude Opus 4.7 erledigte Aufgaben mit einem Roboterhund in einem Bruchteil der Zeit menschlicher Vergleichsgruppen — und das ohne menschliche Hilfe. Wir fassen die Studie, ihre Methodik und die Implikationen für die gesamte KI-Branche zusammen.

Hintergrund: Was war Project Fetch?

Im August 2025 startete Anthropic das erste Project Fetch. Damals traten zwei Teams aus firmeninternen Mitarbeitenden gegeneinander an. Beide Gruppen sollten mit einem handelsüblichen Roboterhund (Quadruped) Aufgaben ausführen: Sensoren verbinden, ein Steuerungsprogramm schreiben, den Roboter durch den Raum navigieren und schließlich einen Ball autonom aufheben und zurückbringen.

Das erste Team erhielt Zugang zu Claude Opus 4.1, dem damals stärksten Modell von Anthropic. Das zweite Team musste ohne KI-Unterstützung auskommen. Ergebnis: Das Claude-Team war substanziell schneller und lieferte mehr ab. Eine zentrale Erkenntnis aus Phase eins war allerdings, dass die damaligen Modelle die Aufgaben nicht eigenständig lösen konnten. Sie scheiterten bereits an der simplen Frage, wie man überhaupt eine Verbindung zum Roboter herstellt.

Phase Zwei: Was ist neu?

Phase Zwei wurde im Juni 2026 veröffentlicht und nutzt Claude Opus 4.7 als alleinigen Akteur. Es gab kein menschliches Team mehr, das mit oder ohne KI arbeitete. Stattdessen führten die Forscher drei Versuchsläufe durch, in denen das Modell autonom die identische Aufgabenreihe aus Phase eins bearbeitete.

Die Rolle des Forschungsteams beschränkte sich auf das Wesentliche:

Laptop mit Claude Code an den Roboter anschließen
Ersten Prompt eingeben
Einzelne Befehle freigeben
Übergang zur nächsten Aufgabe freigeben

Das Modell lief mit „Adaptive Thinking“ und der Einstellung „Maximum Effort“ — der höchsten verfügbaren Denkstufe.

Die zentralen Ergebnisse im Detail

Geschwindigkeit: 20-mal schneller als das schnellste Menschenteam

Auf jeder Aufgabe, die ein menschliches Team in Phase eins abgeschlossen hatte, war Opus 4.7 mindestens zehnmal schneller. Bei den vier Aufgaben, die beide Menschenteams gelöst hatten, war das Modell im Durchschnitt:

37-mal schneller als das „Claude-less“ Team (ohne KI)
18-mal schneller als das „Claude“ Team (mit Opus 4.1)

Insgesamt war Opus 4.7 ungefähr 20-mal schneller als das schnellste menschliche Team aus Phase eins bei allen damals bewältigten Aufgaben.

Code-Effizienz: Weniger Code, gleiches oder besseres Ergebnis

Eine weitere bemerkenswerte Beobachtung: Opus 4.7 produzierte bei gleicher oder besserer Leistung fast zehnmal weniger Code als das Claude-Team in Phase eins. Das Modell wählte direktere Implementierungen, erkannte schneller die richtige Schnittstelle zu den Sensoren und schrieb Code, der häufiger auf den ersten Versuch funktionierte.

Zuverlässigkeit: Geringe Varianz zwischen den Versuchsläufen

Bei den Aufgaben, die im Leistungsbereich des Modells lagen, beobachteten die Forscher nur geringe Streuung zwischen den drei Versuchsläufen. Das Modell lieferte konsistente Ergebnisse.

Schwächen: Präzisionsaufgaben am Ball

Bei einer Aufgabe versagte das Modell: Es konnte den Roboter nicht präzise genug steuern, um den Ball exakt zurück zur Startposition zu bringen. Das ist die Closed-Loop-Steuerung — die Fähigkeit, eine Aktion auszuführen, das Ergebnis visuell zu prüfen, Fehler zu erkennen und die nächste Aktion entsprechend anzupassen. Diese Fähigkeit ist eine Kernkompetenz des Menschen und bleibt für aktuelle LLMs eine Herausforderung.

Das Modell wählte zudem zunächst einen veralteten Objekterkennungs-Algorithmus, konnte das Problem aber selbstständig umgehen und eine funktionierende Lösung liefern.

Vergleich der drei Teams

Aspekt	Team Claude-less (Phase 1)	Team Claude (Phase 1)	Opus 4.7 (Phase 2)
KI-Zugang	Nein	Claude Opus 4.1	Eigenständig
Relative Geschwindigkeit	Baseline	~2-mal schneller	~20-mal schneller
Code-Volumen	Hoch	Sehr hoch	~10-mal weniger
Geschlossene Schleife (Ball)	Möglich, mit Übung	Möglich	Schwierig

Was bedeutet das für die KI-Entwicklung?

Anthropic betont in der Studie ein wiederkehrendes Muster in der KI-Geschichte:

„Zuerst helfen Modelle Menschen. Dann helfen Menschen Modellen. Schließlich können Modelle die Dinge weitgehend selbst tun.“

Wir haben dieses Muster bereits in der Cybersicherheit gesehen — und nun beginnt es, sich an der Schnittstelle zwischen KI und der physischen Welt zu zeigen.

Implikation 1: Frühe Phase der physischen agentischen KI

Anthropic sieht uns am Beginn einer „frühen Ära physischer agentischer KI“. Modelle können Standard-Hardware zunehmend selbstständig nutzen — ähnlich wie sie in der Software-Welt bestehende Tools (zum Beispiel String-Replace-Funktionen) für agentische Programmierung nutzbar gemacht haben.

Implikation 2: Generelles Scaling, nicht spezialisiertes Training

Die Forscher betonen ausdrücklich: Diese Verbesserungen sind nicht das Ergebnis spezialisierter Roboter-Trainings. Die Fähigkeit, Roboter zu steuern, entstand aus dem allgemeinen Skalieren der Modelle. Das ist ein wichtiger Punkt, weil er die Richtung der gesamten Branche bestätigt: Allgemeine Modelle werden in immer mehr Domänen nützlich, ohne dass dafür domänenspezifische Trainingszyklen nötig sind.

Implikation 3: Verbleibende Lücke zur physischen Autonomie

Es bleiben erhebliche Hürden. Die Fähigkeit, eigene Steuerungsrichtlinien zu schreiben oder Roboter für neue Aufgaben anzupassen, ist noch nicht erreicht. Die Studie vergleicht diese Lücke explizit mit dem Übergang zur agentischen Codierung: Was vor wenigen Jahren noch unmöglich erschien — dass Modelle ihre eigenen Software-Tools bauen — passiert heute. Die Autoren halten es für unklug, eine ähnliche Entwicklung in der Hardware-Welt auszuschließen.

Warum ist das wichtig für die Tech-Branche?

Die Ergebnisse haben konkrete Auswirkungen auf mehrere Branchen:

Robotik und Automatisierung: Wenn allgemeine LLMs Roboterhardware zunehmend autonom steuern können, sinkt die Einstiegshürde für kommerzielle Anwendungen. Roboterhunde, Lagerautomation und Inspektionssysteme könnten ohne Spezialsoftware für Endnutzer konfigurierbar werden.

Cybersecurity als Vorbild: Anthropic verweist explizit auf ähnliche Dynamiken in der Cybersicherheit. Dort haben LLMs die Bearbeitung von N-Day-Schwachstellen (bereits öffentlich bekannte, aber nicht überall gepatchte Sicherheitslücken) zunehmend automatisiert. Die Autoren messen, wie viel Zeit Modelle bei der Entwicklung von Exploits sparen.

Allgemeine KI-Architektur: Die Studie unterstreicht, dass der Trend zur physischen Manipulation nicht durch spezialisierte Modelle getrieben wird, sondern durch die Skalierung allgemeiner Systeme. Das hat Auswirkungen auf die Investitionsstrategie in KI-Forschung.

Vergleich mit dem Wettbewerb

Die Ergebnisse von Project Fetch Phase Zwei fügen sich in einen breiteren Trend in der Branche ein. Große KI-Labore investieren massiv in die Verbindung von Sprachmodellen mit physischer Welt:

Google DeepMind arbeitet mit Gemini Robotics an Modellen, die direkt auf Roboter-Hardware trainiert werden. Diese Modelle sind explizit für die physische Manipulation optimiert.
OpenAI hat mit Figure 01 und Figure 02 Partnerschaften geschlossen, um humanoide Roboter mit GPT-Modellen zu koppeln.
Physical Intelligence hat mit Pi-0 ein Open-Source-Modell für Robotersteuerung veröffentlicht, das explizit auf allgemeine Aufgabenübertragung abzielt.
Tesla zeigt mit Optimus regelmäßig humanoide Roboter, die komplexe Manipulationsaufgaben in der Fertigung übernehmen.

Der entscheidende Unterschied: Anthropics Ansatz setzt auf allgemeine Modelle ohne spezialisiertes Robotik-Training. Wenn ein Sprachmodell ohne Domänen-Spezialisierung in der Lage ist, einen Roboterhund autonom zu programmieren, deutet das auf eine breitere Übertragbarkeit hin als bei spezialisierten Robotik-Modellen.

Ausblick: Was kommt nach Phase Zwei?

Anthropic gibt in der Studie drei konkrete nächste Schritte an, die beobachtet werden:

1. Geschlossene Schleife für Ball-Retrieval: Die Fähigkeit, den Roboter so zu steuern, dass der Ball präzise zur Startposition zurückkehrt, ist die nächste Hürde. Hier muss das Modell in Echtzeit visuelle Eingaben verarbeiten und Steuerbefehle anpassen.

2. Maßgeschneiderte Steuerungsrichtlinien: Generalisierte Modelle müssen lernen, eigene Steuerungslogik für spezifische Hardware zu schreiben, statt nur bestehende APIs zu nutzen. Das wäre der Sprung vom „Werkzeugnutzer“ zum „Werkzeugentwickler“.

3. Adaptive Hardware-Konfiguration: Eine offene Frage ist, wie gut Modelle mit variabler Hardware umgehen können — also Robotern, deren Sensoren, Aktoren oder Software sich zwischen den Aufgaben unterscheiden.

Ein Anthropic-Forscher mit Robotik-Erfahrung konnte den vollständigen autonomen Ball-Retrieval in Phase zwei erfolgreich abschließen. Anthropic schätzt, dass aktuelle Modelle mit mehr Zeit und besserer Werkzeug-Unterstützung das gleiche Ergebnis erreichen könnten. Es geht also nicht um ein prinzipielles Hindernis, sondern um Reifegrad und Iterationszeit.

Methodik und Quellen

Die Studie wurde von Michael Ilie, C. Daniel Freeman und Kevin K. Troy verfasst. Anthropic gibt an, Opus 4.7 verwendet zu haben, weil es zum Zeitpunkt der Versuche das „most advanced non-Mythos-class model“ war. Erste Tests mit Claude Mythos Preview lieferten keinen fairen Vergleich, da sich das Experiment-Setup und die Art der Modellauslieferung unterschieden.

Die Autoren aktualisierten den Beitrag am 18. Juni mit einer Korrektur des Datums der ersten Phase.

Die Versuche wurden mit Claude Code durchgeführt — dem Terminal-basierten KI-Agenten von Anthropic, der es Modellen erlaubt, autonom Software-Aufgaben zu erledigen. Claude Code wurde auch im ersten Project Fetch verwendet, ist aber mittlerweile deutlich leistungsfähiger geworden.

Fazit: Ein weiterer Sprung in der allgemeinen KI-Fähigkeit

Project Fetch Phase Zwei ist mehr als ein unterhaltsames Robotik-Experiment. Es illustriert die Geschwindigkeit, mit der allgemeine KI-Modelle in neue Domänen vordringen. In weniger als einem Jahr hat sich der Abstand zwischen KI und menschlichen Experten auf das 20-fache vergrößert — und das nicht durch Robotik-Spezialtraining, sondern durch das Skalieren der zugrundeliegenden Modelle.

Die Frage ist nicht mehr, ob KI physische Werkzeuge autonom nutzen wird. Die Frage ist, wie schnell dieser Punkt erreicht wird. Anthropic gibt keine konkrete Prognose, aber der Verlauf der letzten zwölf Monate spricht für sich.

FAQ

Was ist Project Fetch?

Project Fetch ist ein Experiment von Anthropic, bei dem untersucht wird, wie gut KI-Modelle Roboterhardware autonom steuern können. Phase eins lief im August 2025 mit menschlichen Teams. Phase zwei wurde am 18. Juni 2026 veröffentlicht und testet Claude Opus 4.7 als alleinigen Akteur ohne menschliche Hilfe.

Wie viel schneller ist Claude Opus 4.7 als Menschen?

Im Durchschnitt war Opus 4.7 etwa 20-mal schneller als das schnellste menschliche Team aus Phase eins. Auf einzelnen Aufgaben erreichte das Modell eine bis zu 37-fache Geschwindigkeit gegenüber dem Team ohne KI-Zugang.

Welche Aufgaben musste der Roboter erledigen?

Die Aufgaben umfassten: physische Steuerung des Roboterhunds, Verbindung zu Video- und Lidar-Sensoren, Schreiben eines Programms zur manuellen Steuerung, Pfadverfolgung im Raum, Objekterkennung des Balls und autonome Rückführung des Balls zur Startposition.

Wurde Opus 4.7 speziell für Robotik trainiert?

Nein. Anthropic betont, dass die Robotik-Fähigkeiten nicht aus spezialisiertem Training stammen, sondern aus dem allgemeinen Skalieren der Modelle. Das Modell hat nie ein Robotik-spezifisches Training durchlaufen.

Welche Aufgaben konnte Opus 4.7 nicht lösen?

Das Modell hatte Schwierigkeiten bei der präzisen Steuerung des Roboters, um den Ball exakt zur Startposition zu bringen. Diese Closed-Loop-Steuerung erfordert visuelle Echtzeitkorrektur und bleibt eine Stärke des Menschen. Mit zusätzlicher Zeit und Hilfestellung könnte laut Anthropic auch diese Aufgabe gelöst werden.

Welche Modelle werden in Zukunft noch getestet?

Anthropic erwähnt erste Tests mit Claude Mythos Preview, die allerdings für die Studie nicht verwendet wurden, da die Vergleichbarkeit nicht gegeben war. Zukünftige Veröffentlichungen könnten die Resultate mit dieser Modellklasse fortschreiben.

Quellen:
– Anthropic: Project Fetch: Phase two (18. Juni 2026)
– Anthropic: Measuring LLMs‘ impact on N-day exploits