Google Gemma 3 QAT: Effizientes KI-Modell mit Quantization-Aware Training für Consumer-GPUs

Google stellt mit Gemma 3 QAT (Quantization-Aware Training) neue Versionen seines KI-Modells vor, die speziell für eine effiziente Nutzung auf Consumer-GPUs entwickelt wurden. Durch Quantization-Aware Training werden die Modelle bereits während des Trainings auf eine spätere Quantisierung vorbereitet, sodass sie auch mit niedriger Präzision, etwa 4-Bit-Integer-Formaten, eine hohe Modellqualität und Genauigkeit beibehalten. Dies reduziert den Speicherbedarf und die Modellgröße erheblich, wodurch der Einsatz performanter KI-Modelle auf handelsüblicher Hardware wie Gaming-GPUs möglich wird.

In der Entwicklung von Gemma 3 kamen fortschrittliche Trainingsverfahren zum Einsatz:

  • Knowledge Distillation: Die Modelle profitieren vom Wissen größerer Teacher-Modelle.
  • Erweitertes Token-Budget: Das 27B-Modell wurde mit bis zu 14 Billionen Tokens trainiert.
  • Vielfältige Trainingsdaten: Der Datensatz umfasst Text- und Bilddaten mit einem starken Fokus auf mehrsprachigen Inhalten im Vergleich zu Vorgängerversionen.
  • Post-Training-Techniken: Speziell für die instruktionstunierten Modelle wurden Methoden wie BOND, WARM, WARP und Reinforcement Learning from Human Feedback (RLHF) eingesetzt.

Für Gemma 3 wurden explizite Sicherheitsmaßnahmen umgesetzt:

  • Umfassende Filterung der Trainingsdaten zur Entfernung von persönlichen Daten, unsicheren und doppelten Inhalten.
  • Feintuning mit RLHF, das gezielt 12 Kategorien von toxischen Inhalten adressiert.
  • Eingebaute Mechanismen, die das Modell dazu befähigen, unsichere Anfragen abzulehnen.
  • On-Device-Redaktion sensibler Informationen mittels Token-Filtern.
  • Umfangreiche Evaluierung gegen synthetische adversarielle Anfragen und gezielte Tests für risikobehaftete Domänen.

Die quantisierten QAT-Modelle existieren beispielsweise als 12B oder 27B Varianten und werden im effizienten GGUF-Format ausgeliefert. Dank QAT erreichen diese Modelle eine vergleichbare Qualität wie die bfloat16-Version, benötigen aber signifikant weniger Arbeitsspeicher beim Laden und Ausführen auf lokalen Geräten.

Mit der Veröffentlichung der Gemma 3 QAT-Modelle macht Google aktuelle KI-Technologie noch zugänglicher und wirtschaftlicher nutzbar für Entwickler, Unternehmen und Forschungseinrichtungen, die Wert auf hohe Leistung bei reduziertem Ressourcenverbrauch legen.

Quelle:
https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718&utm_source=alphasignal

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert