
GLM-5.2: Z.AI veröffentlicht Open-Source-Modell mit 1M Token Kontext – überflügelt GPT-5.5 in Coding-Benchmarks
Einleitung
Das chinesische KI-Unternehmen Z.AI (Zhipu AI) hat heute GLM-5.2 veröffentlicht, sein neues Flaggschiff-Modell für langfristige Programmieraufgaben. Das Modell bietet erstmals einen stabilen 1-Million-Token-Kontext und erreicht in mehreren Coding-Benchmarks eine Leistung, die sich mit Claude Opus 4.8 und GPT-5.5 messen kann – als reines Open-Source-Modell unter MIT-Lizenz.
GLM-5.2 ist der Nachfolger von GLM-5.1 und stellt einen deutlichen Sprung in der Fähigkeit dar, langfristige Programmierprojekte zu bewältigen. Das Modell ist ab sofort über die API von Z.AI sowie über Coding-Agents wie Claude Code, OpenCode und ZCode nutzbar.
Was macht GLM-5.2 besonders?
GLM-5.2 wurde speziell für „Long-Horizon Tasks“ optimiert – also Aufgaben, die über Stunden oder sogar Tage hinweg ausgeführt werden, wie die Entwicklung kompletter Softwareprojekte, das Optimieren von Systemen oder angewandte ML-Forschung. Dafür wurde das Modell mit einem stabilen 1M-Token-Kontext ausgestattet, der über reine Token-Akzeptanz hinausgeht: Die Qualität bleibt auch über lange Coding-Agent-Trajektorien hinweg zuverlässig.
Die wichtigsten Neuerungen im Überblick:
- Stabiler 1M-Token-Kontext: Das Modell verarbeitet zuverlässig Kontexte von einer Million Token – ideal für lange Coding-Sessions mit vielen Iterationen
- Flexibles Thinking-Effort: Nutzer können zwischen verschiedenen Denkstufen (High/Max) wählen, um Leistung und Latenz auszubalancieren
- IndexShare-Architektur: Eine neue Attention-Architektur, die Rechenleistung um das 2,9-Fache reduziert
- MIT Open-Source-Lizenz: Keine regionalen Beschränkungen, voller technischer Zugang für alle
Die IndexShare-Architektur: Effizientes 1M-Kontext-Design
Um einen 1-Million-Token-Kontext praktisch nutzbar zu machen, hat Z.AI eine neue Architektur namens IndexShare entwickelt. Dabei wird derselbe Indexer über jeweils vier Sparse-Attention-Layer hinweg wiederverwendet, statt für jeden Layer einen eigenen zu berechnen. Dies reduziert den Rechenaufwand pro Token bei einer Kontextlänge von 1M um das 2,9-Fache.
Ein weiteres Highlight ist die verbesserte Multi-Token-Prediction (MTP)-Schicht für spekulatives Decoding. Durch die Kombination von IndexShare mit KVShare und Rejection Sampling konnte die Akzeptanzlänge – also die Anzahl der Tokens, die das Modell in einem Schritt vorhersagen kann – um 20 Prozent gesteigert werden. Das macht die Inferenz deutlich effizienter.
Benchmark-Vergleich: GLM-5.2 im Detail
Die folgende Tabelle zeigt die Leistung von GLM-5.2 im Vergleich zu den wichtigsten Konkurrenzmodellen:
| Benchmark | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 81,0 | 63,5 | 85,0 | 84,0 | 74,0 |
| SWE-bench Pro | 62,1 | 58,4 | 69,2 | 58,6 | 54,2 |
| FrontierSWE | 74,4 | 30,5 | 75,1 | 72,6 | 39,6 |
| PostTrainBench | 34,3 | 20,1 | 37,2 | 28,4 | 21,6 |
| SWE-Marathon | 13,0 | 1,0 | 26,0 | 12,0 | 4,0 |
| AIME 2026 | 99,2 | 95,3 | 95,7 | 98,3 | 98,2 |
| GPQA-Diamond | 91,2 | 86,2 | 93,6 | 93,6 | 94,3 |
| HLE (Humanity’s Last Exam) | 40,5 | 31,0 | 49,8* | 41,4* | 45,0 |
| MCP-Atlas | 76,8 | 71,8 | 77,8 | 75,3 | 69,2 |
* Bei HLE und HLE w/ Tools sind Claude Opus 4.8 und GPT-5.5 mit Tools getestet.
Langzeit-Coding-Benchmarks
Besonders beeindruckend ist GLM-5.2 in den Long-Horizon-Benchmarks:
- FrontierSWE: Hier misst die Fähigkeit, offene technische Projekte im Umfang von Stunden bis zu mehreren zehn Stunden zu bearbeiten. GLM-5.2 liegt mit 74,4 Prozent nur 1 Prozent hinter Opus 4.8 (75,1 Prozent) und schlägt GPT-5.5 (72,6 Prozent) um 1 Prozent sowie Opus 4.7 um 11 Prozent.
- PostTrainBench: Jeder Agent erhält eine H100-GPU und wird danach bewertet, wie stark er kleine Modelle durch Post-Training verbessern kann. GLM-5.2 übertrifft sowohl Opus 4.7 als auch GPT-5.5 und belegt Platz zwei hinter Opus 4.8.
- SWE-Marathon: Ein Ultra-Langzeit-Benchmark mit Aufgaben wie Compiler-Bau, Kernel-Optimierung und Entwicklung produktionsreifer Dienste. Hier liegt GLM-5.2 mit 13 Prozent zwar hinter Opus 4.8 (26 Prozent), aber auf Platz zwei und mit großem Abstand vor GLM-5.1 (1 Prozent).
Auf allen drei Benchmarks ist GLM-5.2 das leistungsstärkste Open-Source-Modell.
Standard-Coding-Benchmarks
Bei Standard-Coding-Aufgaben zeigt GLM-5.2 eine deutliche Verbesserung gegenüber GLM-5.1:
- Terminal-Bench 2.1: 81,0 Prozent (GLM-5.1: 63,5 Prozent) – ein Sprung von 17,5 Prozentpunkten
- SWE-bench Pro: 62,1 Prozent (GLM-5.1: 58,4 Prozent)
Zum Vergleich: Opus 4.8 erreicht 85,0 Prozent auf Terminal-Bench 2.1, GPT-5.5 liegt bei 84,0 Prozent. GLM-5.2 liegt damit innerhalb weniger Punkte der Closed-Source-Konkurrenz – und übertrifft Gemini 3.1 Pro (74,0 Prozent) deutlich.
Mathematik und Reasoning
Auch bei Mathematik-Aufgaben liefert GLM-5.2 Spitzenwerte:
- AIME 2026: 99,2 Prozent – die höchste Punktzahl unter allen verglichenen Modellen
- HMMT November 2025: 94,4 Prozent
- HMMT Februar 2026: 92,5 Prozent
- IMOAnswerBench: 91,0 Prozent
- GPQA-Diamond: 91,2 Prozent
Der HLE-Score (Humanity’s Last Exam) liegt bei 40,5 Prozent – eine Steigerung um 9,5 Prozentpunkte gegenüber GLM-5.1.
Open Source und Verfügbarkeit
GLM-5.2 wird unter der MIT-Lizenz veröffentlicht – einer der freizügigsten Open-Source-Lizenzen. Es gibt keine regionalen Beschränkungen, keinen Zwang zur Registrierung und keine Einschränkungen bei der kommerziellen Nutzung.
Das Modell ist ab sofort über mehrere Wege nutzbar:
- Z.AI API: Direkt über die Entwicklerplattform von Z.AI (docs.z.ai)
- Coding-Agents: GLM-5.2 kann in Claude Code, ZCode, OpenCode und weiteren Coding-Agents verwendet werden
- GLM Coding Plan: Abonnenten können GLM-5.2 sofort nutzen, mit 1M-Kontext in Claude Code
Für das Post-Training wurde das hauseigene slime-Framework eingesetzt, das paralleles Online-Preference-Distillation-Training ermöglicht. Mehr als zehn Expertenmodelle wurden innerhalb von etwa zwei Tagen in das finale Modell integriert.
Besonders interessant ist der Anti-Hack-Mechanismus für Coding-Agents: Während des RL-Trainings wurde ein zweistufiges System implementiert, das Reward-Hacking erkennt und unterbindet. Ein regelbasierter Filter erfasst zunächst potenzielle Hacks, ein LLM-Judge prüft dann die Absicht. Wird ein Hack erkannt, wird der Aufruf blockiert und Dummy-Informationen zurückgegeben – der Agent kann jedoch weiterarbeiten, ohne dass der gesamte Durchlauf abgebrochen wird.
Fazit
GLM-5.2 ist ein beeindruckender Meilenstein für Open-Source-KI. Das Modell beweist, dass ein vollständig offenes Modell mit dem Closed-Source-State-of-the-Art mithalten kann – insbesondere bei Coding-Aufgaben. Mit 1M-Token-Kontext, flexiblen Denkstufen und einer effizienten Architektur setzt Z.AI neue Maßstäbe.
Für deutsche Entwickler und Unternehmen ist die MIT-Lizenz besonders attraktiv: Es gibt keine rechtlichen Hürden, keine Abhängigkeit von US-Anbietern und volle Kontrolle über die eigene Infrastruktur. Wer KI-gestützte Entwicklung in Open-Source-Umgebungen betreibt, sollte GLM-5.2 unbedingt testen.
FAQ
Was ist GLM-5.2?
GLM-5.2 ist das neueste KI-Modell von Z.AI (Zhipu AI), das speziell für langfristige Programmieraufgaben optimiert wurde. Es bietet einen stabilen 1-Million-Token-Kontext und wird unter der MIT-Open-Source-Lizenz veröffentlicht.
Wie schlägt sich GLM-5.2 im Vergleich zu GPT-5.5 und Claude Opus 4.8?
In Coding-Benchmarks wie FrontierSWE liegt GLM-5.2 nur 1 Prozent hinter Claude Opus 4.8 und übertrifft GPT-5.5. Auf Terminal-Bench 2.1 erreicht es 81,0 Prozent und liegt damit nahe an Opus 4.8 (85,0 Prozent) und GPT-5.5 (84,0 Prozent). In Mathematik übertrifft es beide Modelle bei AIME 2026 mit 99,2 Prozent.
Ist GLM-5.2 wirklich Open Source?
Ja, GLM-5.2 wird unter der MIT-Lizenz veröffentlicht. Es gibt keine regionalen Beschränkungen und die kommerzielle Nutzung ist ohne Einschränkungen erlaubt.
Wo kann ich GLM-5.2 ausprobieren?
GLM-5.2 ist über die API von Z.AI (docs.z.ai) sowie in Coding-Agents wie Claude Code, ZCode und OpenCode verfügbar. Für GLM Coding Plan-Abonnenten ist es sofort nutzbar.
Wie groß ist der Kontext von GLM-5.2?
GLM-5.2 unterstützt einen stabilen 1-Million-Token-Kontext, der speziell für Coding-Agent-Szenarien trainiert wurde. Die Qualität bleibt auch bei langen, komplexen Aufgaben erhalten.
Quellen:
- Original-Blogpost von Z.AI: https://huggingface.co/blog/zai-org/glm-52-blog
- Model auf Hugging Face: https://huggingface.co/zai-org
- Artificial Analysis Benchmark: https://artificialanalysis.ai/models/glm-5-2
- Z.AI Developer Platform: https://docs.z.ai/devpack/overview
- Hacker News Diskussion: https://news.ycombinator.com/item?id=48567759
