GLM-5.2 KI Modell Architektur mit 1M Token Kontext Visualisierung

GLM-5.2: Z.AI veröffentlicht Open-Source-Modell mit 1M Token Kontext – überflügelt GPT-5.5 in Coding-Benchmarks

Einleitung

Das chinesische KI-Unternehmen Z.AI (Zhipu AI) hat heute GLM-5.2 veröffentlicht, sein neues Flaggschiff-Modell für langfristige Programmieraufgaben. Das Modell bietet erstmals einen stabilen 1-Million-Token-Kontext und erreicht in mehreren Coding-Benchmarks eine Leistung, die sich mit Claude Opus 4.8 und GPT-5.5 messen kann – als reines Open-Source-Modell unter MIT-Lizenz.

GLM-5.2 ist der Nachfolger von GLM-5.1 und stellt einen deutlichen Sprung in der Fähigkeit dar, langfristige Programmierprojekte zu bewältigen. Das Modell ist ab sofort über die API von Z.AI sowie über Coding-Agents wie Claude Code, OpenCode und ZCode nutzbar.

Was macht GLM-5.2 besonders?

GLM-5.2 wurde speziell für „Long-Horizon Tasks“ optimiert – also Aufgaben, die über Stunden oder sogar Tage hinweg ausgeführt werden, wie die Entwicklung kompletter Softwareprojekte, das Optimieren von Systemen oder angewandte ML-Forschung. Dafür wurde das Modell mit einem stabilen 1M-Token-Kontext ausgestattet, der über reine Token-Akzeptanz hinausgeht: Die Qualität bleibt auch über lange Coding-Agent-Trajektorien hinweg zuverlässig.

Die wichtigsten Neuerungen im Überblick:

Stabiler 1M-Token-Kontext: Das Modell verarbeitet zuverlässig Kontexte von einer Million Token – ideal für lange Coding-Sessions mit vielen Iterationen
Flexibles Thinking-Effort: Nutzer können zwischen verschiedenen Denkstufen (High/Max) wählen, um Leistung und Latenz auszubalancieren
IndexShare-Architektur: Eine neue Attention-Architektur, die Rechenleistung um das 2,9-Fache reduziert
MIT Open-Source-Lizenz: Keine regionalen Beschränkungen, voller technischer Zugang für alle

Die IndexShare-Architektur: Effizientes 1M-Kontext-Design

Um einen 1-Million-Token-Kontext praktisch nutzbar zu machen, hat Z.AI eine neue Architektur namens IndexShare entwickelt. Dabei wird derselbe Indexer über jeweils vier Sparse-Attention-Layer hinweg wiederverwendet, statt für jeden Layer einen eigenen zu berechnen. Dies reduziert den Rechenaufwand pro Token bei einer Kontextlänge von 1M um das 2,9-Fache.

Ein weiteres Highlight ist die verbesserte Multi-Token-Prediction (MTP)-Schicht für spekulatives Decoding. Durch die Kombination von IndexShare mit KVShare und Rejection Sampling konnte die Akzeptanzlänge – also die Anzahl der Tokens, die das Modell in einem Schritt vorhersagen kann – um 20 Prozent gesteigert werden. Das macht die Inferenz deutlich effizienter.

Benchmark-Vergleich: GLM-5.2 im Detail

Die folgende Tabelle zeigt die Leistung von GLM-5.2 im Vergleich zu den wichtigsten Konkurrenzmodellen:

Benchmark	GLM-5.2	GLM-5.1	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
Terminal-Bench 2.1	81,0	63,5	85,0	84,0	74,0
SWE-bench Pro	62,1	58,4	69,2	58,6	54,2
FrontierSWE	74,4	30,5	75,1	72,6	39,6
PostTrainBench	34,3	20,1	37,2	28,4	21,6
SWE-Marathon	13,0	1,0	26,0	12,0	4,0
AIME 2026	99,2	95,3	95,7	98,3	98,2
GPQA-Diamond	91,2	86,2	93,6	93,6	94,3
HLE (Humanity’s Last Exam)	40,5	31,0	49,8*	41,4*	45,0
MCP-Atlas	76,8	71,8	77,8	75,3	69,2

* Bei HLE und HLE w/ Tools sind Claude Opus 4.8 und GPT-5.5 mit Tools getestet.

Langzeit-Coding-Benchmarks

Besonders beeindruckend ist GLM-5.2 in den Long-Horizon-Benchmarks:

FrontierSWE: Hier misst die Fähigkeit, offene technische Projekte im Umfang von Stunden bis zu mehreren zehn Stunden zu bearbeiten. GLM-5.2 liegt mit 74,4 Prozent nur 1 Prozent hinter Opus 4.8 (75,1 Prozent) und schlägt GPT-5.5 (72,6 Prozent) um 1 Prozent sowie Opus 4.7 um 11 Prozent.
PostTrainBench: Jeder Agent erhält eine H100-GPU und wird danach bewertet, wie stark er kleine Modelle durch Post-Training verbessern kann. GLM-5.2 übertrifft sowohl Opus 4.7 als auch GPT-5.5 und belegt Platz zwei hinter Opus 4.8.
SWE-Marathon: Ein Ultra-Langzeit-Benchmark mit Aufgaben wie Compiler-Bau, Kernel-Optimierung und Entwicklung produktionsreifer Dienste. Hier liegt GLM-5.2 mit 13 Prozent zwar hinter Opus 4.8 (26 Prozent), aber auf Platz zwei und mit großem Abstand vor GLM-5.1 (1 Prozent).

Auf allen drei Benchmarks ist GLM-5.2 das leistungsstärkste Open-Source-Modell.

Standard-Coding-Benchmarks

Bei Standard-Coding-Aufgaben zeigt GLM-5.2 eine deutliche Verbesserung gegenüber GLM-5.1:

Terminal-Bench 2.1: 81,0 Prozent (GLM-5.1: 63,5 Prozent) – ein Sprung von 17,5 Prozentpunkten
SWE-bench Pro: 62,1 Prozent (GLM-5.1: 58,4 Prozent)

Zum Vergleich: Opus 4.8 erreicht 85,0 Prozent auf Terminal-Bench 2.1, GPT-5.5 liegt bei 84,0 Prozent. GLM-5.2 liegt damit innerhalb weniger Punkte der Closed-Source-Konkurrenz – und übertrifft Gemini 3.1 Pro (74,0 Prozent) deutlich.

Mathematik und Reasoning

Auch bei Mathematik-Aufgaben liefert GLM-5.2 Spitzenwerte:

AIME 2026: 99,2 Prozent – die höchste Punktzahl unter allen verglichenen Modellen
HMMT November 2025: 94,4 Prozent
HMMT Februar 2026: 92,5 Prozent
IMOAnswerBench: 91,0 Prozent
GPQA-Diamond: 91,2 Prozent

Der HLE-Score (Humanity’s Last Exam) liegt bei 40,5 Prozent – eine Steigerung um 9,5 Prozentpunkte gegenüber GLM-5.1.

Open Source und Verfügbarkeit

GLM-5.2 wird unter der MIT-Lizenz veröffentlicht – einer der freizügigsten Open-Source-Lizenzen. Es gibt keine regionalen Beschränkungen, keinen Zwang zur Registrierung und keine Einschränkungen bei der kommerziellen Nutzung.

Das Modell ist ab sofort über mehrere Wege nutzbar:

Z.AI API: Direkt über die Entwicklerplattform von Z.AI (docs.z.ai)
Coding-Agents: GLM-5.2 kann in Claude Code, ZCode, OpenCode und weiteren Coding-Agents verwendet werden
GLM Coding Plan: Abonnenten können GLM-5.2 sofort nutzen, mit 1M-Kontext in Claude Code

Für das Post-Training wurde das hauseigene slime-Framework eingesetzt, das paralleles Online-Preference-Distillation-Training ermöglicht. Mehr als zehn Expertenmodelle wurden innerhalb von etwa zwei Tagen in das finale Modell integriert.

Besonders interessant ist der Anti-Hack-Mechanismus für Coding-Agents: Während des RL-Trainings wurde ein zweistufiges System implementiert, das Reward-Hacking erkennt und unterbindet. Ein regelbasierter Filter erfasst zunächst potenzielle Hacks, ein LLM-Judge prüft dann die Absicht. Wird ein Hack erkannt, wird der Aufruf blockiert und Dummy-Informationen zurückgegeben – der Agent kann jedoch weiterarbeiten, ohne dass der gesamte Durchlauf abgebrochen wird.

Fazit

GLM-5.2 ist ein beeindruckender Meilenstein für Open-Source-KI. Das Modell beweist, dass ein vollständig offenes Modell mit dem Closed-Source-State-of-the-Art mithalten kann – insbesondere bei Coding-Aufgaben. Mit 1M-Token-Kontext, flexiblen Denkstufen und einer effizienten Architektur setzt Z.AI neue Maßstäbe.

Für deutsche Entwickler und Unternehmen ist die MIT-Lizenz besonders attraktiv: Es gibt keine rechtlichen Hürden, keine Abhängigkeit von US-Anbietern und volle Kontrolle über die eigene Infrastruktur. Wer KI-gestützte Entwicklung in Open-Source-Umgebungen betreibt, sollte GLM-5.2 unbedingt testen.

FAQ

Was ist GLM-5.2?

GLM-5.2 ist das neueste KI-Modell von Z.AI (Zhipu AI), das speziell für langfristige Programmieraufgaben optimiert wurde. Es bietet einen stabilen 1-Million-Token-Kontext und wird unter der MIT-Open-Source-Lizenz veröffentlicht.

Wie schlägt sich GLM-5.2 im Vergleich zu GPT-5.5 und Claude Opus 4.8?

In Coding-Benchmarks wie FrontierSWE liegt GLM-5.2 nur 1 Prozent hinter Claude Opus 4.8 und übertrifft GPT-5.5. Auf Terminal-Bench 2.1 erreicht es 81,0 Prozent und liegt damit nahe an Opus 4.8 (85,0 Prozent) und GPT-5.5 (84,0 Prozent). In Mathematik übertrifft es beide Modelle bei AIME 2026 mit 99,2 Prozent.

Ist GLM-5.2 wirklich Open Source?

Ja, GLM-5.2 wird unter der MIT-Lizenz veröffentlicht. Es gibt keine regionalen Beschränkungen und die kommerzielle Nutzung ist ohne Einschränkungen erlaubt.

Wo kann ich GLM-5.2 ausprobieren?

GLM-5.2 ist über die API von Z.AI (docs.z.ai) sowie in Coding-Agents wie Claude Code, ZCode und OpenCode verfügbar. Für GLM Coding Plan-Abonnenten ist es sofort nutzbar.

Wie groß ist der Kontext von GLM-5.2?

GLM-5.2 unterstützt einen stabilen 1-Million-Token-Kontext, der speziell für Coding-Agent-Szenarien trainiert wurde. Die Qualität bleibt auch bei langen, komplexen Aufgaben erhalten.

Quellen:

Original-Blogpost von Z.AI: https://huggingface.co/blog/zai-org/glm-52-blog
Model auf Hugging Face: https://huggingface.co/zai-org
Artificial Analysis Benchmark: https://artificialanalysis.ai/models/glm-5-2
Z.AI Developer Platform: https://docs.z.ai/devpack/overview
Hacker News Diskussion: https://news.ycombinator.com/item?id=48567759