Meta stellt die neue Llama-4-Serie vor
Meta hat die neue Llama-4-Serie vorgestellt, eine bahnbrechende Generation von KI-Modellen mit nativer Multimodalität, die Texte, Bilder und Videos effizient verarbeiten können. Neben technologischen Durchbrüchen bietet die Modellreihe flexible Einsatzmöglichkeiten und hohe Leistung bei optimierten Kosten. Hier alle wichtigen Details:
Technologische Eigenschaften
Die Llama-4-Serie basiert auf einer Mischung-von-Experten-Architektur (Mixture-of-Experts, MoE), bei der nur ein Bruchteil der Modellparameter für jede Eingabe aktiv ist. Dies erhöht die Effizienz bei Training und Inferenz und senkt die Betriebskosten deutlich. Die Modelle integrieren zudem frühzeitig Text- und Bilddaten in einem sogenannten Early-Fusion-Ansatz, der nahtlose Multimodalitätsunterstützung sicherstellt.
- Parameter und Architektur:
- Llama 4 Scout: 17 Milliarden aktive Parameter, 16 Experten, optimiert für eine Kontexthistorie von 10 Millionen Tokens.
- Llama 4 Maverick: 17 Milliarden aktive Parameter, 128 Experten, mit 1 Millionen Tokens Kontextlänge und spezialisiert auf allgemeine Assistenzfunktionen, Bilderkennung und präzises Sprachverständnis.
- Llama 4 Behemoth (in Entwicklung): 288 Milliarden aktive Parameter, als leistungsstarkes Lehrmodell für die anderen Modelle konzipiert.
Multimodale Fähigkeit und Sprachen
Alle Modelle unterstützen mehr als zwölf Sprachen, darunter Deutsch, Englisch, Französisch und Spanisch, und können Text- sowie Bildeingaben verarbeiten, auch in Kombination. Bei komplexen Aufgaben wie Dokumentenanalyse, Bildbeschreibungen oder Videoverständnis zeichnen sich die Modelle durch außergewöhnliche Präzision aus.
Leistungssteigerungen und Benchmarks
Die Modelle wurden auf robusten Trainingsdaten von insgesamt 30 Billionen Tokens trainiert. Dabei wurde FP8-Präzision genutzt, um gleichzeitig Rechenleistung und Genauigkeit zu maximieren. Llama-4-Modelle übertreffen führende Konkurrenzmodelle wie GPT-4.5, Claude Sonnet 3.7 und Gemini 2.0 Pro in Tests zu Programmieren, Multilingualität, logischem Denken sowie Bildanalyse.
Optimierungen durch NVIDIA
Dank NVIDIA TensorRT-LLM-Technologie und Blackwell B200 GPUs erreichen Llama 4 Scout und Maverick eine Durchsatzrate von 30.000 bis 40.000 Tokens pro Sekunde, was die Effizienz weiter steigert. Die Modelle sind mit quantisierten Gewichten kompatibel und für den Betrieb auf H100 GPUs optimiert, was die Nutzung auch in ressourcenlimitierten Umgebungen erleichtert.
Einsatzmöglichkeiten und Zielgruppen
Llama-4-Modelle bieten vielseitige Anwendungsmöglichkeiten:
- Llama 4 Scout ist ideal für langformatige Aufgaben wie Dokumentenzusammenfassungen und personalisierte Anwendungen.
- Llama 4 Maverick eignet sich hervorragend für Chatbots, kreative Texte, Bilderkennung sowie multilingualen Support in interaktiven Anwendungen. Unternehmensanwendungen wie Kundenservice-Assistenz und visuelle KI-Systeme profitieren von der erweiterten Multimodalität.
- Behemoth-Modelle sind für Forschung und Lehre ausgerichtet und übertreffen die branchenweit führenden Benchmarks in Mathematik und wissenschaftlichem Denken.
Offene Verfügbarkeit und Lizenzierung
Die Llama-4-Modelle sind als Open-Weight-Modelle für Entwickler auf Plattformen wie Hugging Face zugänglich. Sie können flexibel in der Cloud, lokal oder am Netzwerkrand (Edge) eingesetzt werden. Meta stellt umfassende technische Dokumentationen zur Verfügung, um die Nutzung der Modelle zu optimieren.
Mit Llama 4 setzt Meta neue Standards in der KI-Forschung und bringt leistungsstarke Werkzeuge in die Hände von Entwicklern, wodurch die Tür für personalisierte, skalierbare und kosteneffiziente KI-Lösungen weltweit geöffnet wird.
Quelle:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/