EuroWire , San Francisco : Microsoft hat am 26. Januar Maia 200 vorgestellt, die zweite Generation seines hauseigenen KI-Beschleunigers. Dieser wurde für den produktiven Betrieb von KI-Modellen in Azure-Rechenzentren entwickelt. Laut Microsoft ist Maia 200 für die Inferenz konzipiert – die Phase, in der trainierte Modelle Antworten auf Live-Anfragen generieren – und wird eine Reihe von Microsoft-KI-Diensten unterstützen.

Der Maia 200 wird im 3-Nanometer-Verfahren von TSMC gefertigt und enthält laut Microsoft mehr als 140 Milliarden Transistoren. Der Chip kombiniert Rechenleistung mit einem neuen Speichersystem, das 216 Gigabyte HBM3e-Speicher mit hoher Bandbreite und etwa 272 Megabyte On-Chip-SRAM umfasst. Dieses System ist für die Bewältigung umfangreicher Token-Generierung und anderer rechenintensiver Workloads ausgelegt.
Microsoft gab bekannt, dass Maia 200 eine Leistung von über 10 Petaflops bei 4-Bit-Präzision und etwa 5 Petaflops bei 8-Bit-Präzision bietet – Formate, die häufig für die effiziente Ausführung moderner generativer KI verwendet werden. Das System ist zudem auf eine Leistungsaufnahme von 750 Watt ausgelegt und verfügt über skalierbare Netzwerkfunktionen, sodass die Chips für größere Installationen miteinander verbunden werden können.
Das Unternehmen gab bekannt, dass die neue Hardware in einem Azure-Rechenzentrum in Iowa (USA, Zentral) in Betrieb genommen wurde; ein weiterer Standort in Arizona ist geplant. Microsoft bezeichnete Maia 200 als sein bisher effizientestes Inferenzsystem und berichtete von einer 30-prozentigen Verbesserung der Leistung pro investiertem Dollar im Vergleich zu seinen bestehenden Systemen.
Fokus auf KI-Inferenz und Azure-Bereitstellung
Microsoft gab bekannt, dass Maia 200 KI-Produkte und -Dienste unterstützen soll, die auf die Ausführung von Modellen mit hohem Datenvolumen und geringer Latenz angewiesen sind, darunter Workloads, die in Azure und Microsoft-eigenen Anwendungen laufen. Das Unternehmen erklärte, dass der Chip und das zugehörige System als Teil eines durchgängigen Infrastrukturansatzes entwickelt wurden, der Silizium, Server, Netzwerk und Software für die skalierbare Bereitstellung von KI-Modellen umfasst.
Parallel zum Chip kündigte Microsoft den frühen Zugriff auf ein Maia-Softwareentwicklungskit für Entwickler und Forscher an, die an der Modelloptimierung arbeiten. Laut Unternehmen soll das Tool Teams beim Kompilieren und Optimieren von Modellen für Maia-basierte Systeme unterstützen und ist so strukturiert, dass es sich in gängige KI-Entwicklungsworkflows für die Bereitstellung von Inferenz in der Cloud einfügt.
Leistungsversprechen und Modellunterstützung
Microsoft gab bekannt, dass der Maia 200 für die Ausführung großer Sprachmodelle und komplexer Systeme zur logischen Schlussfolgerung konzipiert wurde und für interne sowie gehostete Modellbereitstellungen in Azure eingesetzt wird. Das Unternehmen positioniert den Chip als Produktionsbeschleuniger für Inferenzprozesse und grenzt ihn damit von trainingsorientierten Systemen ab, die typischerweise zum Erstellen von Modellen vor der Bereitstellung verwendet werden.
Microsoft hat die Entwicklung kundenspezifischer Chips beschleunigt, da die Nachfrage nach Rechenleistung für generative KI-Anwendungen gestiegen ist. Kosten und Verfügbarkeit von Beschleunigern beeinflussen dabei die Skalierbarkeit der Dienste. Maia 200 ist der Nachfolger von Maia 100, das Microsoft 2023 vorstellte, und stellt die neueste Generation der dedizierten KI-Beschleuniger für die Inferenz in Rechenzentren dar.
Der Beitrag Microsoft stellt Maia 200-Beschleuniger für KI-Modellinferenz vor erschien zuerst auf Dublin Pioneer .
