Mehrere KI-Agenten arbeiten gemeinsam an einem Schreibtisch – Symbolbild für Multi-Agenten-Orchestrierung

Sakana Fugu: Das japanische KI-Labor veröffentlicht ein Multi-Agenten-Orchestrierungsmodell, das mit Frontier-Modellen konkurriert

Das japanische KI-Forschungslabor Sakana AI hat am 22. Juni 2026 mit Sakana Fugu ein neuartiges KI-System veröffentlicht, das die Logik der KI-Entwicklung grundlegend herausfordert. Statt wie bisher ein immer größeres einzelnes Modell zu trainieren, setzt Sakana auf gelernte Orchestrierung: Ein einziges Sprachmodell koordiniert dynamisch einen Pool spezialisierter KI-Agenten, um komplexe Aufgaben zu lösen. Laut Sakana erreicht die Ultra-Variante Leistungen auf Frontier-Niveau, vergleichbar mit Anthropics Fable 5 und Mythos Preview.

Warum ein Orchestrierungsmodell statt ein immer größeres LLM?

In den vergangenen Jahren dominierte ein einfaches Prinzip die KI-Entwicklung: Skalierung. Mehr Daten, mehr Parameter, mehr Rechenleistung. Doch Sakana AI argumentiert, dass diese Ära an ihre praktischen Grenzen stößt. Reale, komplexe Aufgaben erfordern eine Vielzahl spezialisierter Fähigkeiten, die kein einzelnes Modell gleichzeitig in Spitzenqualität abdecken kann.

Die zentrale These: Die wertvollste Ressource ist nicht ein monolithisches Modell, sondern die Fähigkeit, die richtigen Modelle zur richtigen Zeit miteinander zu kombinieren. Genau das ist die Kernidee hinter Sakana Fugu.

Ein zweiter Faktor kommt hinzu, der Sakanas Ansatz politisch wie operativ relevant macht: Single-Vendor-Abhängigkeit ist zum echten Risiko geworden. Die jüngsten Exportkontrollen für Anthropics Fable- und Mythos-Modelle haben gezeigt, dass der Zugriff auf kritische KI-Infrastruktur über Nacht verschwinden kann. Sakana Fugu ist explizit als Hedge gegen diese Konzentration konzipiert. Fällt ein Anbieter aus, leitet das System Aufgaben dynamisch an andere Agenten im Pool weiter.

Was ist Sakana Fugu konkret?

Sakana Fugu ist nach außen hin ein einziges Modell, das über eine OpenAI-kompatible API angesprochen wird. Im Inneren orchestriert es jedoch mehrere spezialisierte Sprachmodelle und entscheidet situativ, welche Kombination zur Lösung der jeweiligen Aufgabe am besten geeignet ist.

Das System übernimmt intern vier entscheidende Aufgaben:

Modellauswahl: Welches Modell eignet sich am besten für den vorliegenden Teil der Aufgabe?
Delegation: Wann soll ein Teilschritt an einen spezialisierten Agenten abgegeben werden?
Verifikation: Wie werden Zwischenergebnisse geprüft, bevor sie zusammengeführt werden?
Synthese: Wie werden die Ergebnisse verschiedener Agenten zu einer kohärenten Antwort kombiniert?

Diese Komplexität bleibt für den Anwender unsichtbar. Wer Sakana Fugu nutzt, sendet schlicht einen Prompt an einen Endpunkt und erhält eine Antwort. Die gesamte Multi-Agenten-Logik verbirgt sich hinter der API.

Der Clou: Fugu ist selbst ein Sprachmodell

Was Sakana Fugu von klassischen Multi-Agenten-Frameworks unterscheidet: Das Orchestrierungsmodul ist selbst ein trainiertes Sprachmodell. Es hat nicht nur gelernt, Sprache zu verarbeiten, sondern gezielt, wann es delegieren sollte, wie Agenten miteinander kommunizieren und wie deren Ergebnisse zu einer verlässlichen Antwort zusammengeführt werden.

Diese Architektur basiert auf Sakanas eigener Forschung, die auf den ICLR 2026 Konferenzen präsentiert wurde:

TRINITY (An Evolved LLM Coordinator): Ein evolutionär entwickeltes Sprachmodell, das andere LLMs koordiniert.
The Conductor (Learning to Orchestrate Agents in Natural Language): Ein Modell, das gelernt hat, Agenten in natürlicher Sprache zu orchestrieren.

Beide Ansätze bilden das wissenschaftliche Fundament für Fugu und zeigen, dass Orchestrierung selbst eine lernbare Fähigkeit ist, die sich mit klassischen, regelbasierten Ansätzen nicht in dieser Qualität erreichen lässt.

Fugu und Fugu Ultra: Zwei Modelle für unterschiedliche Anforderungen

Sakana veröffentlicht Fugu in zwei Varianten, die sich an unterschiedliche Einsatzszenarien richten:

Fugu ist auf ein ausgewogenes Verhältnis zwischen Leistung und Latenz optimiert. Es eignet sich als Standardmodell für alltägliche Aufgaben wie Codegenerierung, Code-Reviews oder Chatbot-Interaktionen. Für Teams mit Datenschutz- oder Compliance-Anforderungen bietet Fugu die Möglichkeit, bestimmte Agenten aus dem Pool zu entfernen, sodass nur erwünschte Modelle zum Einsatz kommen.

Fugu Ultra ist auf maximale Antwortqualität bei komplexen, mehrstufigen Problemen ausgelegt. Es koordiniert einen größeren Pool spezialisierter Agenten, wenn Präzision und Tiefe entscheidend sind. Erste Anwender haben es unter anderem für KI-Forschung, Reproduktion wissenschaftlicher Paper, Cybersicherheits-Analysen sowie Literatur- und Patentrecherchen eingesetzt.

Beide Modelle werden über eine einzige OpenAI-kompatible API bereitgestellt, was die Integration in bestehende Werkzeuge und Workflows deutlich vereinfacht.

Benchmark-Ergebnisse: Auf Augenhöhe mit Frontier-Modellen?

Sakana gibt an, dass Fugu Ultra in mehreren renommierten Benchmarks vergleichbare Ergebnisse wie Fable 5 und Mythos Preview erzielt, und zwar in den Bereichen Coding, Reasoning, wissenschaftliches Wissen und agentische Fähigkeiten. Wichtig dabei: Weder Fable 5 noch Mythos Preview sind Teil von Fugus Agenten-Pool, da sie öffentlich nicht zugänglich sind. Der Vergleich basiert auf den von den jeweiligen Anbietern veröffentlichten Werten.

In ersten Praxistests mit konkurrierenden Frontier-Modellen wie Gemini 3.1 Pro (high), Claude Opus 4.8 (max) und GPT 5.5 (xhigh) zeigte Fugu laut Sakana in mehreren realen Anwendungen überlegene Ergebnisse, darunter:

AutoResearch (automatisiertes Datenanalyse-Research)
Rubik’s Cube-Lösungsstrategien
Mechanische Designaufgaben
Analyse japanischer Handschrift
One-Shot Schach
Finanzzeitreihen-Prognosen

Wichtig zur Einordnung: Bei diesen Tests handelt es sich um Herstellerangaben. Wie WorldofAI in einem unabhängigen Praxistest feststellte, fallen die Ergebnisse in realen Anwendungsszenarien oft weniger spektakulär aus als die Benchmark-Werte vermuten lassen. Benchmarks messen spezifische Fähigkeiten unter kontrollierten Bedingungen, nicht die praktische Nützlichkeit in komplexen, offenen Workflows.

Was Early Users berichten: Praxis statt Theorie

Benchmarks sind die eine Seite. Die wertvolleren Erkenntnisse liefern die fast 500 Beta-Tester, die Fugu in den vergangenen Wochen in realen Arbeitsabläufen eingesetzt haben. Sakana zitiert in der offiziellen Ankündigung mehrere besonders aussagekräftige Rückmeldungen:

Ein Software Engineer im Bereich Code-Review berichtet, dass Fugu Ultra „signifikant besser“ sei als GPT-5.5. Während andere Werkzeuge typischerweise drei Probleme pro Review fänden, habe Fugu über zwanzig identifiziert, darunter solche, die andere Modelle übersehen hätten.

Eine Führungskraft aus dem Enterprise-Plattform-Bereich hebt die Persona-Stabilität über lange Sessions hervor. Wo andere Modelle nach vielen Interaktionen ihren Charakter verändern oder inkonsistent werden, halte Fugu seine Identität und Qualität über lange Sitzungen hinweg, ein Faktor, der für agentenbasierte Produkte wichtiger sein könne als reine Benchmark-Werte.

Ein Cybersecurity-Engineer beschreibt, wie Fugu mit einer einzigen, klar umrissenen Anweisung eine vollständige Sicherheitsbewertung durchgeführt habe, von Reconnaissance über XSS- und SQLi-Prüfungen bis hin zu Authentifizierungs-Reviews und einem sauberen Bericht mit Nachweisschritten, ohne definierte Grenzen zu überschreiten oder destruktive Aktionen auszulösen.

Diese Berichte deuten darauf hin, dass Fugus größte Stärke nicht in einer einzelnen Benchmark-Aufgabe liegt, sondern in der Fähigkeit, über viele Einzelschritte hinweg konsistent Fortschritte zu erzielen: Lesen, Implementieren, Testen, Vergleichen, Lücken finden und schließlich eine fundierte Analyse liefern.

Wirtschaftliche und geopolitische Dimension

Die explizite Betonung von „Frontier-Leistung ohne Exportkontroll-Risiko“ in der Ankündigung ist kein Zufall. Sakana positioniert Fugu als Antwort auf eine real existierende Bedrohung: die Konzentration kritischer KI-Fähigkeiten bei wenigen US-Anbietern. Wer für Forschung, Verteidigung, kritische Infrastruktur oder Finanzmärkte auf eine einzige API angewiesen ist, hat ein massives operationelles Risiko, wenn sich die politische Lage ändert.

Indem Fugu als Orchestrierungsschicht konzipiert ist, die Agenten aus dem Pool austauschen oder hinzufügen kann, entsteht eine technische Absicherung gegen geopolitische Verwerfungen. Fallen einzelne Modelle weg, etwa durch Exportverbote oder unternehmensinterne Entscheidungen, bleiben die Workflows funktionsfähig.

Diese Positionierung dürfte besonders in Japan, der EU und anderen Regionen mit wachsendem Bedarf an KI-Souveränität auf Interesse stoßen.

Verfügbarkeit und Preismodell

Sakana Fugu ist ab dem 22. Juni 2026 allgemein verfügbar. Beide Varianten (Fugu und Fugu Ultra) sind über eine einzige OpenAI-kompatible API erreichbar. Das Preismodell besteht aus zwei Stufen:

Abonnement für regelmäßige, alltägliche Nutzung
Pay-as-you-go für intensivere oder Enterprise-Workloads

Der technische Report zu Sakana Fugu ist als PDF auf GitHub veröffentlicht (SakanaAI/fugu). Eine Beta-Plattform mit Onboarding und ersten Beispielen steht unter sakana.ai/fugu bereit.

Fazit: Ein Modell, das Modelle lenkt

Sakana Fugu markiert einen konzeptionellen Wendepunkt in der KI-Entwicklung. Anstatt das nächste monolithische Megamodell zu bauen, nutzt Sakana die bestehende Vielfalt an Sprachmodellen und macht deren intelligente Kombination selbst zum Produkt.

Das ist kein theoretisches Konstrukt. Die Beta-Phase mit fast 500 Nutzern zeigt, dass Orchestrierung in der Praxis dort den größten Mehrwert liefert, wo Aufgaben lang, mehrstufig und mit klassischen Single-Model-Aufrufen kaum lösbar sind. In Bereichen wie Code-Review, automatisierter Forschung, Sicherheitsanalysen oder Patent-Recherchen, in denen klassische LLMs an ihre praktischen Grenzen stoßen, spielt Fugu seine Stärke aus.

Gleichzeitig sollte man die Hersteller-Benchmarks mit gesunder Skepsis betrachten. Unabhängige Tests, etwa in der Entwickler-Community, werden zeigen, wie groß der Abstand zwischen Marketing-Versprechen und realer Leistung tatsächlich ist. Der erste Test der WorldofAI-Community deutet an, dass Fugu in einigen Benchmarks mit Frontier-Modellen mithalten kann, in der Praxis aber noch nicht ganz das Niveau von Fable 5 oder Mythos 5 erreicht. Das ändert nichts an der strategischen Bedeutung des Ansatzes: Die nächste Stufe der KI-Leistung wird möglicherweise nicht durch größere Modelle erreicht, sondern durch klügeres Zusammenspiel.

Wer seine KI-Infrastruktur robuster und unabhängiger von einzelnen Anbietern aufstellen will, sollte Sakana Fugu auf dem Radar behalten.

FAQ

Was unterscheidet Sakana Fugu von einem normalen LLM?

Ein klassisches LLM verarbeitet eine Anfrage mit einem einzigen, internen Modell. Sakana Fugu ist selbst ein Sprachmodell, das andere LLMs dynamisch orchestriert. Es entscheidet je nach Aufgabe, welche Modelle aus einem Agenten-Pool zusammenarbeiten, wer welche Teilaufgabe übernimmt und wie die Ergebnisse zusammengeführt werden. Für den Anwender ist das unsichtbar, es gibt nur eine einzige API.

Ist Fugu Ultra wirklich so gut wie Fable 5 oder Mythos Preview?

Laut Sakana erreicht Fugu Ultra in mehreren Benchmarks vergleichbare Werte wie diese Frontier-Modelle. Allerdings sind das Herstellerangaben. Unabhängige Praxistests deuten darauf hin, dass die reale Leistung in komplexen Anwendungsszenarien etwas unter dem Niveau von Fable 5 oder Mythos 5 liegt. Benchmarks messen isolierte Fähigkeiten, nicht die praktische Nützlichkeit in offenen Workflows.

Warum ist der Ansatz gerade jetzt relevant?

Exportkontrollen und politische Spannungen haben das Risiko von Single-Vendor-Abhängigkeit bei KI-Infrastruktur deutlich erhöht. Sakana Fugu ist explizit als Hedge gegen diese Konzentration konzipiert. Fällt ein Anbieter aus, kann das System seine Aufgaben an andere Modelle im Pool umleiten, ohne dass die Workflows zusammenbrechen.

Welche API nutzt Sakana Fugu?

Sakana Fugu wird über eine OpenAI-kompatible API bereitgestellt. Das bedeutet, bestehende Werkzeuge und Integrationen, die für OpenAI-Modelle entwickelt wurden, lassen sich in der Regel mit minimalem Aufwand auf Fugu umstellen.

Ist Fugu Open Source?

Sakana hat den technischen Report als PDF auf GitHub veröffentlicht (github.com/SakanaAI/fugu). Die zugrunde liegenden Modelle selbst sind jedoch nicht offen, Fugu wird als kommerzielles Produkt mit Abonnement- und Pay-as-you-go-Plan angeboten.

Für wen eignet sich Fugu Ultra besonders?

Sakana positioniert Fugu Ultra für komplexe, mehrstufige Aufgaben, bei denen Präzision und Tiefe entscheidend sind: KI-Forschung, Reproduktion wissenschaftlicher Paper, Cybersicherheits-Analysen, Literatur- und Patentrecherchen. Fugu (ohne Ultra) richtet sich eher an alltägliche Aufgaben wie Codegenerierung, Code-Reviews oder Chatbot-Interaktionen, bei denen Latenz und Kosten wichtiger sind als maximale Tiefe.

Sakana Fugu: Japanisches KI-Lab veröffentlicht Orchestrierungsmodell auf Frontier-Niveau