LongCat-2.0 Open-Source-LLM mit MoE-Architektur

LongCat-2.0: Open-Source-LLM mit 1,6T Parametern

LongCat-2.0 ist ein neuer großskaliger MoE-Sprachmodell-Release von Meituan LongCat: 1,6 Billionen Gesamtparameter, rund 48 Milliarden aktivierte Parameter pro Token, 1M-Kontext, API-Zugang und ein öffentliches GitHub-/Hugging-Face-Repository. Der wichtigste Haken: Die Modellgewichte sind laut Repository noch nicht verfügbar; der Release ist daher zum Start eher ein technischer Preview mit API-Zugang als ein vollständig nutzbarer Open-Weights-Release.

Die Ankündigung ist trotzdem relevant, weil LongCat-2.0 mehrere aktuelle Trends bündelt: extrem große Mixture-of-Experts-Modelle, lange Kontextfenster für Agenten, optimierte Sparse-Attention-Mechanismen und Training auf alternativer Beschleuniger-Hardware statt auf dem klassischen Nvidia-Stack. Laut offizieller LongCat-Seite wurde der Pretraining-Lauf auf mehr als 35 Billionen Tokens durchgeführt und auf AI-ASIC-Superpods trainiert und deployed.

Für Entwickler ist vor allem die Zugangslage entscheidend. LongCat-2.0 wird laut offizieller API-Dokumentation über eine OpenAI-kompatible und eine Anthropic-kompatible API angeboten. Gleichzeitig listet das Hugging-Face-Modell zum Zeitpunkt der Prüfung nur Metadaten, Lizenz, README und Bilddateien; große Weight-Dateien sind dort nicht vorhanden. Das GitHub-Repository enthält zudem den Hinweis, dass die Modellgewichte „coming soon“ sind.

Was wurde veröffentlicht?

Meituan LongCat beschreibt LongCat-2.0 als großskaliges Mixture-of-Experts-Modell mit 1,6 Billionen Gesamtparametern. Pro Token sollen ungefähr 48 Milliarden Parameter aktiviert werden. Das ist die zentrale Effizienzlogik von MoE-Modellen: Das Modell besitzt sehr viele Spezialisten, nutzt aber pro Token nur einen Teil davon.

Der Release umfasst mehrere öffentliche Einstiegspunkte:

eine offizielle technische Ankündigung auf longcat.chat,
ein öffentliches GitHub-Repository unter meituan-longcat/LongCat-2.0,
ein Hugging-Face-Modell unter meituan-longcat/LongCat-2.0,
eine API-Plattform mit OpenAI- und Anthropic-kompatiblen Schnittstellen,
eine Chat-Webseite für interaktive Nutzung.

Wichtig ist die Unterscheidung zwischen Open Source, Open Weights und API-Zugang. LongCat kommuniziert den Release als Open-Sourcing. Das Repository steht öffentlich und ist mit MIT-Lizenz markiert. Die Gewichte sind aber laut README noch nicht ausgeliefert. Praktisch bedeutet das: Entwickler können den Release technisch einordnen und offenbar über API nutzen, aber das Modell noch nicht lokal herunterladen und selbst betreiben.

Diese Differenz ist nicht akademisch. Bei KI-Modellen entscheidet sie darüber, ob ein Modell nur als Cloud-Service testbar ist oder ob Unternehmen es selbst hosten, quantisieren, auditieren und in eigene Inferenz-Stacks integrieren können.

Architektur: MoE, Sparse Attention und N-Gram Embeddings

Technisch baut LongCat-2.0 laut Ankündigung auf früheren LongCat-Modellen auf, geht aber bei Parameterzahl, Kontextlänge und Attention-Effizienz deutlich weiter. Drei Bausteine stechen heraus: LongCat Sparse Attention, N-Gram Embedding und ein spezielles Post-Training mit mehreren Experten-Gruppen.

LongCat Sparse Attention, kurz LSA, ist laut LongCat eine Weiterentwicklung von DeepSeek Sparse Attention. Das Ziel ist, lange Kontexte effizienter zu verarbeiten, ohne die Modellqualität deutlich zu verlieren. Das ist für Agenten entscheidend, weil Coding-, Recherche- und Workflow-Agenten häufig sehr lange Eingaben verarbeiten: komplette Repositories, Logs, Dokumentationen, Browser-Kontexte und Zwischenergebnisse.

LSA enthält laut Quelle drei Effizienzkomponenten. Streaming-aware Indexing soll Speicherzugriffe planbarer machen und fragmentierte Zugriffe stärker in sequenzielle Muster überführen. Cross-Layer Indexing nutzt die Beobachtung, dass Attention-Saliency über benachbarte Layer stabil sein kann; dadurch kann ein Indexing-Lauf über mehrere Layer amortisiert werden. Hierarchical Indexing reduziert den Kandidatenraum in zwei Stufen: zuerst grob auf Blockebene, dann feiner innerhalb der ausgewählten Kandidaten.

Der zweite Architekturpunkt ist ein N-Gram-Embedding-Modul. LongCat gibt an, dass LongCat-2.0 135 Milliarden N-Gram-Embedding-Parameter enthält. Diese Parameter sollen lokale Token-Kombinationen besser abbilden und gleichzeitig die reine MoE-Skalierung ergänzen. Laut LongCat liegt der Anteil dieser N-Gram-Embedding-Parameter unter 10 Prozent des Gesamtmodells.

Das ist eine wichtige Designentscheidung: Statt noch mehr Expertenparameter in ein ohnehin sehr spärlich aktiviertes MoE-System zu packen, verschiebt LongCat einen Teil des Parameterbudgets in eine andere Dimension. Ob diese Strategie außerhalb der eigenen Harnesses robust aufgeht, muss unabhängig geprüft werden. Der Ansatz ist aber technisch plausibel, weil große MoE-Modelle nicht nur an Parameterzahl, sondern auch an Aktivierungs-, Speicher- und Routing-Effizienz hängen.

Training und Infrastruktur: mehr als 50.000 AI-ASICs

LongCat-2.0 wurde laut offizieller Quelle auf mehr als 50.000 AI-ASICs vortrainiert. Die Ankündigung betont ausdrücklich, dass sowohl Training als auch großskaliges Deployment auf AI-ASIC-Superpods laufen. Außerdem heißt es, der Pretraining-Lauf habe Millionen von Accelerator-Days und mehr als 35 Billionen Tokens umfasst.

Das ist aus Marktsicht mindestens so interessant wie die Modellarchitektur. Frontier-nahe Modelle hängen traditionell stark am Nvidia-Ökosystem. LongCat positioniert den Release als Beleg dafür, dass großskaliges Training auf alternativen Hardwareplattformen produktionsreif werden kann. Die Quelle nennt unter anderem deterministische Operatoren, bit-flip-Erkennung, automatische Fehlerbehandlung und Superpod-Scheduling als Bausteine für Zuverlässigkeit.

Die Hardware-Aussage sollte man trotzdem präzise lesen. LongCat veröffentlicht viele Systemdetails, aber keine vollständige unabhängige Reproduzierbarkeit des Trainings. Die Angaben stammen aus der eigenen technischen Ankündigung. Sie zeigen eine ernsthafte Infrastrukturleistung, ersetzen aber keine externe Auditierung.

Für den Markt ist die Richtung klar: Wenn große chinesische Plattformen eigene Accelerator-Stacks stabilisieren, sinkt die Abhängigkeit von einzelnen GPU-Lieferketten. Das kann langfristig Kosten, Verfügbarkeit und geopolitische Dynamik im LLM-Markt verändern.

1M Kontext: relevant für Coding- und Agenten-Workflows

LongCat-2.0 soll laut API-Dokumentation eine maximale Kontextlänge von 1 Million Tokens unterstützen, mit einer maximalen Ausgabelänge von 128.000 Tokens. Das ist ein sehr großes Fenster und zielt sichtbar auf agentische Workflows.

Ein 1M-Kontext ist nicht automatisch gleichbedeutend mit guter Langkontext-Leistung. Entscheidend ist, ob ein Modell in sehr langen Eingaben zuverlässig relevante Informationen findet, Prioritäten setzt und keine Details halluziniert. Deshalb sind Benchmarks wie BrowseComp, RWSearch oder Repository-Level-Coding-Tests wichtig, auch wenn sie nie die ganze Praxis abdecken.

LongCat verbindet den langen Kontext mit Coding- und Agenten-Fähigkeiten. Die Ankündigung nennt Integrationen oder Kompatibilität mit Harnesses wie Claude Code, OpenClaw und Hermes. Inhaltlich geht es um Codeverständnis, Repository-weite Änderungen, automatisierte Aufgaben und agentische Workflows.

Für Entwickler ist das der eigentliche Testbereich. Ein Modell mit hoher Parameterzahl ist nur dann nützlich, wenn es in realen Tools stabil arbeitet: Dateien verstehen, Änderungen konsistent durchführen, Tests interpretieren, Tool-Aufrufe korrekt strukturieren und bei Fehlern nicht in Schleifen laufen.

Benchmarks: starke Werte, aber überwiegend Herstellerangaben

LongCat veröffentlicht Vergleichswerte gegen aktuelle proprietäre Modelle, darunter Gemini 3.1 Pro, GPT-5.5 und mehrere Claude-Opus-Versionen. Laut Tabelle erreicht LongCat-2.0 unter anderem 70,8 auf Terminal-Bench 2.1, 59,5 auf SWE-bench Pro, 77,3 auf SWE-bench Multilingual, 79,9 auf BrowseComp und 88,9 auf GPQA-diamond.

Diese Werte sind relevant, aber sie müssen vorsichtig gelesen werden. LongCat schreibt selbst, dass nicht mit Stern markierte Werte intern unter einem einheitlichen Harness gemessen wurden. Mit Stern markierte Werte stammen aus extern berichteten Metriken. Das ist transparent, aber kein Ersatz für unabhängige Benchmark-Reproduktion.

Bereich	LongCat-Angabe	Einordnung
Modellklasse	MoE-Sprachmodell	1,6T Gesamtparameter, ca. 48B aktiv pro Token
Kontext	1M Tokens	Laut API-Dokumentation, bis 128K Output
Training	Mehr als 35T Tokens	Laut LongCat auf AI-ASIC-Superpods
Zugang	API und Chat verfügbar	OpenAI-/Anthropic-kompatible API beschrieben
Gewichte	Noch nicht verfügbar	GitHub/Hugging Face enthalten zum Start keine Weight-Dateien
Lizenz	MIT im Repository	Praktisch erst vollständig relevant, wenn Gewichte erscheinen

Die wichtigste Benchmark-Frage lautet daher nicht nur: „Wie hoch ist der Score?“ Sondern: „Kann ein externer Entwickler denselben Test mit denselben Gewichten, Parametern und Tool-Setups reproduzieren?“ Solange die Gewichte nicht veröffentlicht sind, bleibt ein Teil der technischen Bewertung zwangsläufig herstellerabhängig.

Zugangszustand: API ja, offene Gewichte noch nicht

Der konkrete Zugangszustand ist gemischt. Laut LongCat-API-Dokumentation können Nutzer einen API-Key erstellen. Die Plattform unterstützt ein OpenAI-kompatibles Format für Chat Completions und ein Anthropic-kompatibles Format für Messages. Als Modellname wird LongCat-2.0 aufgeführt.

Das ist für schnelle Tests praktisch, weil bestehende Anwendungen theoretisch mit relativ wenig Anpassung angebunden werden können. Für Unternehmen, die bereits OpenAI- oder Anthropic-kompatible Clients nutzen, senkt ein solcher API-kompatibler Zugang die Integrationshürde.

Der offene Modellzugang ist dagegen noch nicht vollständig. Das GitHub-Repository wurde am 29. Juni 2026 angelegt und am 30. Juni aktualisiert. Es ist öffentlich und trägt eine MIT-Lizenz. Hugging Face listet das Modell öffentlich, aber die Siblings enthalten nur README, Lizenz, .gitattributes und Bilddateien. Die README enthält den Hinweis, dass die Modellgewichte noch folgen.

Damit ist LongCat-2.0 zum Start kein vollständig herunterladbares Open-Weights-Modell. Es ist ein veröffentlichter technischer Release mit API-Zugang und angekündigter Öffnung der Gewichte. Wer lokale Inferenz, Quantisierung oder eigene Sicherheitsprüfungen plant, muss auf die tatsächlichen Weight-Dateien warten.

Warum LongCat-2.0 für den LLM-Markt wichtig ist

LongCat-2.0 ist nicht nur wegen der Parameterzahl interessant. Die Zahl „1,6 Billionen“ klingt groß, aber der wichtigere Punkt ist die Kombination aus MoE-Effizienz, langem Kontext, agentischem Fokus und alternativer Hardware.

Erstens verschiebt sich der Wettbewerb bei LLMs weiter in Richtung Agentenfähigkeit. Modelle werden nicht mehr nur an Chatqualität gemessen, sondern an ihrer Fähigkeit, Aufgaben über viele Schritte auszuführen. Coding-Agenten, Office-Agenten, Recherche-Agenten und Tool-Nutzung werden zu Kernmetriken.

Zweitens wird der Hardware-Stack strategischer. Wenn LongCat die eigenen Angaben belastbar einlöst, zeigt der Release, dass große Trainingsläufe auf AI-ASIC-Clustern außerhalb des klassischen Nvidia-Pfads möglich sind. Das ist besonders für Anbieter relevant, die wegen Kosten, Exportkontrollen oder Lieferketten eigene Beschleuniger-Ökosysteme aufbauen.

Drittens steigt der Druck auf echte Offenheit. Viele Anbieter verwenden „open“ uneinheitlich. Ein öffentlicher Blogpost und ein leeres Modell-Repository sind nicht dasselbe wie veröffentlichte Gewichte. LongCat nennt die Gewichte noch als kommend; diese Transparenz ist besser als unklare Marketing-Sprache, aber die praktische Bewertung muss warten.

Für Leser von Kitoolsupdate ist die nüchterne Einordnung daher: LongCat-2.0 ist ein technisch ambitionierter Release und wahrscheinlich ein ernstzunehmender Kandidat im Agenten- und Coding-Modellsegment. Der volle Open-Source-Wert entsteht aber erst, wenn die Gewichte wirklich verfügbar sind und unabhängige Tests die Herstellerwerte bestätigen oder korrigieren.

Vergleich zu aktuellen Modelltrends

LongCat-2.0 passt in eine aktuelle Welle großer, agentenorientierter Modelle. Proprietäre Anbieter verbessern Tool-Nutzung, lange Kontexte und Coding-Leistung. Open-Source- und Open-Weights-Projekte versuchen gleichzeitig, den Abstand bei Agenten-Benchmarks zu schließen.

Im Vergleich zu rein API-zentrierten Releases ist LongCat interessanter, weil eine Veröffentlichung der Gewichte angekündigt ist. Im Vergleich zu bereits herunterladbaren Open-Weights-Modellen bleibt LongCat aber zunächst weniger überprüfbar. Das ist die zentrale Spannung dieses Releases.

Der Benchmark-Kontext zeigt außerdem, wie hart der Wettbewerb geworden ist. LongCat misst sich nicht gegen ältere Llama-3-Klassen, sondern gegen aktuelle Frontier-Modelle und moderne Agenten-Benchmarks. Diese Vergleichsebene ist angemessen, aber sie erhöht auch die Anforderungen an unabhängige Reproduktion.

Für Entwickler lohnt sich LongCat-2.0 deshalb zuerst als API-Test für Agenten-Workflows: lange Repositories, mehrstufige Tool-Aufgaben, Rechercheketten und strukturierte Codeänderungen. Für Infrastrukturteams wird das Modell erst dann richtig interessant, wenn die Gewichte veröffentlicht sind und sich Speicherbedarf, Quantisierung, Throughput und Kosten real messen lassen.

Quellenlage und offene Fragen

Die wichtigsten Fakten stammen aus der offiziellen LongCat-Ankündigung, dem öffentlichen GitHub-Repository, der Hugging-Face-Modellseite und der LongCat-API-Dokumentation. Hacker News war in diesem Scan nur der Discovery-Kanal; die technische Einordnung basiert auf den Primärquellen.

Offen bleiben mehrere Punkte:

Wann genau werden die Modellgewichte veröffentlicht?
In welchem Format und mit welchen Inferenzanforderungen erscheinen sie?
Bleibt die MIT-Lizenz auch für die finalen Gewichte unverändert relevant?
Wie reproduzierbar sind die Benchmark-Werte außerhalb des LongCat-Harnesses?
Welche Kosten, Rate Limits und regionalen Einschränkungen gelten für den API-Zugang?
Wie stabil ist LongCat-2.0 in realen Coding-Agenten statt nur in Benchmarks?

Diese Fragen sind nicht nebensächlich. Sie entscheiden, ob LongCat-2.0 ein starker API-Konkurrent bleibt oder ein wirklich relevantes Open-Weights-Modell für eigene Deployments wird.

Fazit

LongCat-2.0 ist einer der technisch interessanteren LLM-Releases des Tages: ein 1,6T-Parameter-MoE-Modell mit 1M-Kontext, agentischem Fokus, AI-ASIC-Infrastruktur und API-Zugang. Die offizielle Benchmark-Tabelle positioniert das Modell in Reichweite aktueller Frontier-Systeme, besonders bei Coding-, Agenten- und Suchaufgaben.

Die harte Wahrheit ist aber: Zum Start ist LongCat-2.0 noch nicht vollständig als Open-Weights-Modell nutzbar. GitHub und Hugging Face sind öffentlich, aber die Weight-Dateien fehlen. Wer den Release bewertet, sollte deshalb zwischen Ankündigung, API-Zugang und echter lokaler Nutzbarkeit sauber trennen.

Wenn LongCat die Gewichte zeitnah veröffentlicht und unabhängige Tests die Leistungsangaben stützen, könnte LongCat-2.0 ein wichtiger Baustein im offenen LLM-Ökosystem werden. Bis dahin ist es ein starker technischer Preview mit klarer Marktimplikation: Der Wettbewerb um agentenfähige, langkontextstarke Modelle verlagert sich zunehmend auch auf alternative Hardware-Stacks und API-kompatible Ökosysteme.

FAQ zu LongCat-2.0

Was ist LongCat-2.0?

LongCat-2.0 ist ein großskaliges Mixture-of-Experts-Sprachmodell von Meituan LongCat mit 1,6 Billionen Gesamtparametern und ungefähr 48 Milliarden aktivierten Parametern pro Token.

Ist LongCat-2.0 bereits vollständig Open Source?

Das Repository ist öffentlich und mit MIT-Lizenz markiert, aber die Modellgewichte sind laut README noch „coming soon“. Zum Start ist LongCat-2.0 daher nicht vollständig als herunterladbares Open-Weights-Modell verfügbar.

Wie kann man LongCat-2.0 nutzen?

Laut API-Dokumentation gibt es eine LongCat-API-Plattform mit OpenAI- und Anthropic-kompatiblen Formaten sowie einen Chat-Zugang. Für lokale Inferenz fehlen zum Zeitpunkt der Prüfung noch die veröffentlichten Gewichte.

Wie groß ist der Kontext von LongCat-2.0?

Die LongCat-API-Dokumentation nennt für LongCat-2.0 eine maximale Kontextlänge von 1 Million Tokens und eine maximale Ausgabelänge von 128.000 Tokens.

Sind die Benchmarks unabhängig bestätigt?

Die LongCat-Tabelle enthält Herstellerwerte und extern berichtete Vergleichswerte. Solange die Gewichte nicht verfügbar sind, lassen sich die zentralen Ergebnisse nur begrenzt unabhängig reproduzieren.

Quellen

Offizielle LongCat-Ankündigung: https://longcat.chat/blog/longcat-2.0/
GitHub-Repository: https://github.com/meituan-longcat/LongCat-2.0
Hugging Face Modellseite: https://huggingface.co/meituan-longcat/LongCat-2.0
LongCat API-Dokumentation: https://longcat.chat/platform/docs/
Interne Einordnung zu LLM-Inferenz: https://kitoolsupdate.de/deepseek-dspark-60-85-schnellere-llm-inferenz/
Interne Einordnung zu Open-Source-Coding-Agenten: https://kitoolsupdate.de/ornith-1-0-open-source-ki-fuer-coding-agenten/