Sakana Fugu Ultra im Praxis-Test: Die Realität hinter den Benchmark-Rekorden

Sakana Fugu Ultra Multi-Agenten-Orchestrierung im Praxis-Test mit KI-Modell-Vergleich

Das japanische KI-Labor Sakana AI hat mit Fugu Ultra ein System vorgestellt, das auf Benchmark-Charts angeblich Modelle wie Fable 5, Mythos und GPT-5.5 übertrifft. Doch ein ausführlicher Praxis-Test zeigt: Die Benchmark-Ergebnisse erzählen nur die halbe Wahrheit. Was Fugu Ultra wirklich kann – und wo die Grenzen des Orchestrierungs-Ansatzes liegen.

Anfang Juni 2026 sorgte Sakana AI mit einer kühnen Behauptung für Aufsehen: Fugu Ultra, das Flaggschiff-System des japanischen KI-Labors, soll auf Benchmarks wie LiveCodeBench und TerminalBench sogar Fable 5 übertreffen und auf dem Niveau von Mythos operieren. Sakana positioniert das Modell als „Frontier-Fähigkeit ohne Export-Kontroll-Risiko“ – ein nicht unwichtiger Punkt in Zeiten, in denen die US-Regierung den Zugriff auf bestimmte Top-Modelle einschränkt.

Doch Benchmark-Charts und reale Nutzung sind zwei verschiedene Dinge. Ein umfangreicher Test mit fünf verschiedenen Anwendungsfällen – von einer Trading-Desk-App über einen Crossy-Road-Klon bis hin zu Schach und Flugsimulation – offenbart ein deutlich differenzierteres Bild. Die zentrale Erkenntnis: Fugu Ultra ist kein einzelnes Frontline-Modell, sondern ein Orchestrierungssystem, das hinter den Kulissen andere Modelle koordiniert. Das funktioniert bei strukturierten Aufgaben erstaunlich gut, stößt aber bei langen, komplexen Aufgaben an Grenzen.

Was ist Sakana Fugu Ultra wirklich?

Um die Testergebnisse richtig einzuordnen, muss man verstehen, was Fugu Ultra technisch eigentlich ist. Es ist kein einzelnes trainiertes Modell, sondern ein Multi-Agenten-Orchestrierungssystem. Statt ein Problem von Anfang bis Ende mit einem Modell zu lösen, passiert Folgendes:

Ein Koordinator-Modell zerlegt die eingehende Aufgabe in kleinere Teilaufgaben
Jede Teilaufgabe wird an das am besten geeignete Modell weitergeleitet (Routing)
Die Ergebnisse werden kritisch geprüft und verifiziert
Alle Teilresultate werden zu einer finalen Lösung synthetisiert

Das bedeutet: Fugu Ultra nutzt andere Modelle – sehr wahrscheinlich inklusive GPT-5.5 für Frontend-Generierungen – als Bausteine. Die eigentliche „Intelligenz“ liegt in der Orchestrierungsschicht, also der Fähigkeit, Aufgaben zu zerlegen, korrekt weiterzuleiten und Ergebnisse zu aggregieren. Sakana trainiert zwar eigene Modelle, aber die Kernleistung von Fugu Ultra beruht auf der intelligenten Kombination bestehender Systeme.

Dieser Ansatz ist konzeptionell verwandt mit dem, was OpenRouter mit seiner Fusion-API anbietet – nur dass Sakana die Orchestrierung in einem durchgängigen System verpackt hat.

Warum Benchmarks ein verzerrtes Bild zeichnen

Die Benchmark-Ergebnisse von Fugu Ultra sind auf den ersten Blick beeindruckend. Auf LiveCodeBench und TerminalBench übertrifft das System tatsächlich etablierte Frontier-Modelle. Doch das liegt an der Natur der Benchmarks: Sie belohnen strukturierte Problemlösung, sorgfältige Überprüfung und methodisches Vorgehen – genau die Stärken eines Orchestrierungssystems.

Ein Koordinator muss nicht selbst frontier-level intelligent sein. Er muss lediglich gut darin sein, Aufgaben zu zerlegen, an die richtigen Modelle weiterzuleiten und Ergebnisse zu aggregieren. Bei Benchmarks, die diese Art von methodischem Vorgehen honorieren, kann ein solcher Ansatz eigenständige Modelle schlagen.

Das Problem: Auf Benchmarks, die lange, zusammenhängende Aufgaben erfordern (wie SwayBench Pro), schneidet Fugu Ultra spürbar schlechter ab. Jeder zusätzliche Planungsschritt, jeder Verifizierungs-Durchlauf und jede Modellübergabe introduceiert Latenz, Kosten und zusätzliche Fehlerquellen. Genau das wird bei komplexen, mehrstufigen Aufgaben zum Nachteil.

Praxis-Test 1: Trading-Desk-Anwendung

Im ersten Test sollten die Modelle einen kompletten Live-Trading-Desk mit Frontend und Backend, Echtzeit-Marktdaten für acht Symbole und einem Custom-Dark-Theme-UI erstellen. Die Ergebnisse im Kosten-/Token-Vergleich:

Modell	Token-Verbrauch	Kosten
Sakana Fugu Ultra	ca. 22.000 Token	0,51 $
Claude Opus 4.8	ca. 16.000 Token	0,31 $
GPT-5.5	ca. 11.000 Token	0,26 $
GLM 5.2	ca. 13.000 Token	0,03 $

Fugu Ultra lieferte das am stärksten verfeinerte und funktionsreichste Ergebnis aller getesteten Modelle. Die Oberfläche war durchdacht, die Funktionalität umfassend. Doch der Preis dafür war spürbar: Mit 51 Cent war Fugu Ultra deutlich teurer als die Konkurrenz. Claude Opus 4.8 und GPT-5.5 boten ein besseres Verhältnis von Qualität zu Kosten.

Besonders bemerkenswert: GLM 5.2 kostete nur 3 Cent und lieferte ein qualitativ vergleichbares Ergebnis bei Frontend-Aufgaben. Für Design und Webentwicklung ist GLM 5.2 aktuell eines der besten Preis-Leistungs-Verhältnisse am Markt.

Praxis-Test 2: Crossy-Road-Spiel-Klon

Im zweiten Test sollten die Modelle die Funktionalität des beliebten Mobile-Games „Crossy Road“ klonen. Hier zeigten sich die Grenzen des Orchestrierungs-Ansatzes deutlich:

Sakana Fugu Ultra verbrauchte etwa 90.000 Token, kostete 7,32 $ und brauchte 22 Minuten für die Generierung. Das Ergebnis war zwar schnell und kosteneffizient produziert, wies aber mehrere funktionale Mängel auf: Die Steuerung war invertiert (alle Bedienelemente funktionierten verkehrt herum), das Kamerasystem war instabil, es fehlten Soundeffekte, und die Straßen waren nicht vollständig implementiert.

Claude Opus 4.8 ging den anderen Extremweg: Mit fast einer Million Token und 379 $ Gesamtkosten war das Modell deutlich teurer, lieferte aber ein wesentlich polierteres Ergebnis. Auch hier gab es Fehler (ein Restart-Bug und ein nicht korrekt implementiertes Schwierigkeitssystem), aber die Gesamtqualität in App-Qualität, Funktionalität und Design war höher.

Die Lektion: Orchestrierung kann Aufgaben schnell und (relativ) günstig lösen, aber die Qualität leidet unter den vielen Übergaben und Verifizierungsschritten. Ein einzelnes starkes Modell ist bei komplexen, zusammenhängenden Aufgaben oft konsistenter.

Praxis-Test 3: Schwarzes-Loch-Simulation und Flugsimulator

Bei 3D- und Simulationsaufgaben zeigte Fugu Ultra seine Stärken. Für eine Schwarzes-Loch-Simulation produzierte das System eine beeindruckende Darstellung mit akkuratem Rendering, Gravitationsverzerrung und korrekten visuellen Komponenten. Im Vergleich zu GLM 5.2, MiniMax und Kimi 2.7 Code schnitt Fugu Ultra hier am besten ab.

Auch beim Flugsimulator überzeugte Fugu Ultra: Das System generierte ein unendliches Terrain und eine halbwegs akkurate Flugphysik. Sowohl MiniMax M3 als auch GLM 5.2 scheiterten an dieser Aufgabe – MiniMax produzierte lediglich ein Flugzeug-Modell ohne eigentliche Simulation, GLM 5.2 konnte die Generierung gar nicht abschließen.

Diese Ergebnisse zeigen: Für 3D-Rendering, Simulationen und visuell komplexe Aufgaben ist die Orchestrierungsstrategie tatsächlich vorteilhaft. Die Fähigkeit, spezialisierte Modelle für einzelne Komponenten einzusetzen, zahlt sich bei heterogenen Anforderungen aus.

Praxis-Test 4: Blindfold-Schach

Ein besonders interessanter Test war das einstufige Blindfold-Schach-Experiment: Das Modell musste Schach spielen, ohne das Brett zu sehen, und den kompletten Spielzustand aus dem Gedächtnis verwalten. Über vier aufeinanderfolgende Partien gegen drei Frontier-Modelle und eine Stockfish-Engine mit 2.100 ELO blieb Fugu Ultra durchgehend akkurat, während die anderen Modelle im Spielverlauf immer weiter abdrifteten. Jede Partie endete mit einem Schachmatt, das Fugu Ultra erzielte.

Dieser Test ist deshalb aufschlussreich, weil er eine Fähigkeit misst, die für Orchestrierungssysteme besonders relevant ist: Zustandsverwaltung über lange Sequenzen hinweg. Dass Fugu Ultra hier konstant bleibt, während eigenständige Modelle abdriften, spricht für die Verifizierungsschleife im Orchestrierungs-Design.

Das ehrliche Fazit: Wo steht Fugu Ultra wirklich?

Nach allen Tests ist die Realität klar: Fugu Ultra ist kein Fable-5- oder Mythos-Klassen-Modell. In der Gesamtfähigkeit kommt es eher auf das Niveau von GLM 5.2 – kostet aber dramatisch mehr. Das System ist beeindruckend als Ingenieursleistung und als Beweis, dass smarte Orchestrierung bestehende Modelle weiter pushen kann als viele erwartet hätten. Aber es ist kein neues Frontline-Fundament.

Stärken von Fugu Ultra:
– Beeindruckende Benchmark-Ergebnisse bei strukturierten Aufgaben
– Ausgezeichnet bei 3D/Simulation/Rendering-Aufgaben
– Überlegen bei Zustandsverwaltung (Schach-Test)
– Poliertes Frontend bei Design-Aufgaben

Schwächen von Fugu Ultra:
– Oft extrem langsam durch Orchestrierungs-Overhead
– Deutlich teurer als vergleichbare Einzelmodelle
– Inkonsistent bei langen, komplexen Aufgaben
– Abhängig von den Modellen, die es hinter den Kulissen nutzt
– In einigen europäischen Regionen aktuell nicht verfügbar

Wann sollte man welches Modell wählen?

Aus den Testergebnissen lassen sich konkrete Empfehlungen für die Praxis ableiten:

Für das beste Preis-Leistungs-Verhältnis bei Frontend- und Design-Aufgaben: GLM 5.2 – bei 3 Cent pro komplexer Generierung unschlagbar günstig, mit exzellentem Design-Geschmack
Für zuverlässige Allround-Qualität: GPT-5.5 oder Claude Opus 4.8 – solide Balance aus Qualität, Geschwindigkeit und Kosten
Für komplexe 3D- und Simulationsaufgaben: Sakana Fugu Ultra – hier zahlt sich die Multi-Modell-Orchestrierung tatsächlich aus
Für lang laufende, mehrstufige Projekte: Eigenständige Frontier-Modelle – die Orchestrierungs-Latenz und -Kosten von Fugu Ultra werden hier zum Nachteil

Bedeutung für die KI-Landschaft

Sakana Fugu Ultra ist ein wichtiges Signal für die KI-Industrie, auch wenn es nicht das ist, was die Benchmark-Charts suggerieren. Es beweist, dass Orchestrierung als eigenständige Disziplin funktioniert – und dass ein Unternehmen nicht zwingend ein Frontline-Modell trainieren muss, um frontier-ähnliche Ergebnisse zu erzielen.

Das ist besonders relevant für Unternehmen und Labore, die keinen Zugriff auf die Rohrechenleistung für das Training eines Fable-5- oder Mythos-Klassen-Modells haben. Die Zukunft der KI könnte weniger in immer größeren Einzelmodellen liegen als in intelligenteren Kombinationen bestehender Modelle. Sakana AI hat mit Fugu einen ersten überzeugenden Beweis für diese These geliefert – auch wenn das System selbst noch ausgereift werden muss.

Sakana hat bereits signalisiert, an weiteren Versionen zu arbeiten. Wenn die Orchestrierungsschicht effizienter wird und die zugrundeliegenden eigenen Modelle stärker werden, könnte eine zukünftige Fugu-Version tatsächlich frontier-level sein. Bis dahin bleibt Fugu Ultra ein faszinierendes Werkzeug für spezifische Anwendungsfälle – aber nicht das Allround-Modell, das es auf dem Papier zu sein verspricht.

FAQ

Ist Sakana Fugu Ultra besser als Fable 5?
Nein. Trotz beeindruckender Benchmark-Ergebnisse auf LiveCodeBench und TerminalBench zeigt der ausführliche Praxis-Test, dass Fugu Ultra in der Gesamtfähigkeit eher auf dem Niveau von GLM 5.2 liegt. Bei komplexen, langen Aufgaben ist es langsamer, teurer und inkonsistenter als echte Frontier-Modelle wie Fable 5.

Was genau ist Fugu Ultra technisch?
Fugu Ultra ist kein einzelnes trainiertes Modell, sondern ein Multi-Agenten-Orchestrierungssystem. Ein Koordinator zerlegt Aufgaben in Teilaufgaben, leitet diese an die am besten geeigneten Modelle weiter, prüft die Ergebnisse und synthetisiert die finale Lösung. Es nutzt also andere Modelle als Bausteine.

Wie viel kostet die Nutzung von Sakana Fugu Ultra?
Die Kosten variieren je nach Aufgabe. Im Trading-Desk-Test kostete eine Generierung etwa 51 Cent, beim Crossy-Road-Klon 7,32 Dollar. Damit ist Fugu Ultra deutlich teurer als vergleichbare Modelle wie GPT-5.5 (26 Cent) oder GLM 5.2 (3 Cent).

Für welche Aufgaben eignet sich Fugu Ultra am besten?
Der Praxis-Test zeigt, dass Fugu Ultra besonders bei 3D-Rendering, Simulationen und visuell komplexen Aufgaben überzeugt. Auch bei Aufgaben, die eine präzise Zustandsverwaltung erfordern (wie Blindfold-Schach), schneidet es überlegen ab. Für einfache Frontend-Aufgaben sind günstigere Modelle wie GLM 5.2 die bessere Wahl.

Ist Sakana Fugu Ultra in Europa verfügbar?
Fugu Ultra ist derzeit nur über die API von Sakana AI zugänglich. In einigen europäischen Regionen gibt es Zugriffsbeschränkungen. Interessierte Nutzer sollten die offizielle Sakana-AI-Website auf aktuelle Verfügbarkeitsinformationen prüfen.

Lohnt sich der Wechsel zu Fugu Ultra für Entwickler?
Das hängt vom Anwendungsfall ab. Für 3D- und Simulationsprojekte kann Fugu Ultra einen echten Mehrwert bieten. Für Standard-Coding-Aufgaben, Webentwicklung oder Allround-Nutzung sind eigenständige Modelle wie GPT-5.5 oder GLM 5.2 meist die wirtschaftlichere und zuverlässigere Wahl.