Connect with us

Deutsch

Nvidia klärt Anspruch auf Megatron-Turing-Skala

Published

on

Sie haben vielleicht bemerkt, dass Microsoft und Nvidia letzte Woche angekündigt haben, dass sie „das weltweit größte und leistungsstärkste generative Sprachmodell“, bekannt als „Megatron-Turing NLG 530B“, trainiert haben ZDNets Chris Duckett berichtete.

Das Modell ist in diesem Fall ein neuronales Netzwerkprogramm basierend auf dem “Transformer”-Ansatz, der im Deep Learning weit verbreitet ist. Megatron-Turing ist in der Lage, realistisch wirkende Texte zu produzieren und auch an verschiedenen Sprachtests wie der Satzvervollständigung teilzunehmen.

Die Nachricht war insofern etwas verwirrend, als Microsoft bereits vor einem Jahr ein Programm angekündigt hatte, das größer und leistungsfähiger zu sein schien. Während das Megatron-Turing NLG 530B 530 Milliarden neuronale “Gewichte” oder Parameter verwendet, um sein Sprachmodell zu erstellen, hat das, was als “1T” bekannt ist, eine Billion Parameter.

Microsofts Blog-Post, der Megatron-Turing erklärt, ist mit dem Github-Repo verknüpft, das von Nvidias Jared Casper verwaltet wird, in dem die verschiedenen Sprachmodelle zusammen mit Statistiken aufgeführt sind. Diese Statistiken zeigen, dass es nicht nur 1 t größer ist als das Megatron-Turing NLG 530B, sondern auch höhere Zahlen für jede Leistungszahl, einschließlich der Spitzen-Tera-FLOPs oder Billionen von Gleitkommaoperationen pro Sekunde, die erreicht wurden.

Wie kann Megatron-Turing NLG 530B also das größte sein, wenn 1T in jeder Hinsicht größer ist? Um die Angelegenheit zu lösen, ZDNet sprach mit Paresh Kharya von Nvidia, Senior Director of Product Marketing and Management.

Der Schlüssel ist, dass 1T nie „auf Konvergenz trainiert“ wurde, ein Begriff, der bedeutet, dass das Modell vollständig entwickelt wurde und jetzt für die Durchführung von Inferenzen verwendet werden kann, dem Stadium, in dem Vorhersagen gemacht werden. Stattdessen habe 1T eine begrenzte Anzahl von Trainingsläufen durchlaufen, sagte Kharya, die als “Epochen” bekannt sind und nicht zu einer Konvergenz führen.

Wie Kharya erklärt: “Das Training großer Modelle auf Konvergenz dauert je nach Größe des verwendeten Supercomputers Wochen und sogar Monate.” Die Tabelle auf der GitHub-Seite listet sogenannte “Skalierungsstudien” auf, die ein Maß dafür liefern, welche Art von Leistung auch ohne Training eines Modells auf Konvergenz erreicht werden kann.

Solche Studien “können durchgeführt werden, indem man einige Minuten lang Teiltrainingsläufe in verschiedenen Maßstabs- und Modellgrößen durchführt”, sagte Kharya ZDNet.

Das von Nvidia und Microsoft entwickelte Megatron-Turing NLG 530B Natural Language Processing-Programm hat 530 Milliarden Parameter. Die Unternehmen sagen, dass es das größte natürliche Sprachprogramm ist, das “auf Konvergenz trainiert” ist, dh mit seinen neuralen Gewichten oder Parametern, die vollständig entwickelt sind, damit es Inferenzaufgaben ausführen kann.

Bild: Microsoft

Die Zahlen für verschiedene Metriken wie “erreichte TeraFLOPs” seien “echte Datenpunkte”, sagte Kharya, “gemessen durch Durchführung von Teiltrainingsläufen”.

Der Sinn eines Teiltrainingslaufs besteht darin, eine “Meilen pro Gallone”-Maßeinheit wie bei einem Auto zu erreichen, sagte Kharya, damit Kunden wissen, was es braucht, um ein bestimmtes Modell zu trainieren und einzusetzen, bevor sie sich dazu verpflichten.

„Verschiedene Kunden verwenden unterschiedliche Modelle und müssen abschätzen, wie viel Rechenressourcen sie investieren müssten, wenn sie eine Modellgröße online über eine Nvidia-Plattform stellen würden“, erklärte Kharya, „oder wenn sie eine bestimmte Menge an Rechenleistung hätten Ressourcen, wie lange würde es dauern, diese Modelle zu trainieren.”

Die Datenpunkte in FLOPs können einem Kunden sagen, wie lange er eine Cloud-Instanz benötigen würde oder wie groß eine Instanz für eine festgelegte Trainingszeit sein wird.

Damit ist das Megatron-Turing NLG 530B das größte Modell, dessen neuronale Gewichte eigentlich mittlerweile ausreichend entwickelt sind, um Benchmark-Tests durchführen zu können, von denen Nvidia und Microsoft mehrere Ergebnisse lieferten.

Die Bedeutung dieser Errungenschaft, sagte Kharya, sei die Möglichkeit, ein so großes Modell in einer parallelisierten Infrastruktur bereitzustellen.

microsoft-nvidia-table-of-neural-network-models-2021.jpg

Verschiedene neuronale Netzwerkmodelle, die von Microsoft und Nvidia entwickelt wurden, darunter Megatron-Turing NLG 530B und “1T”, ein Billionen-Netzwerk-Modell. Die Zahlen stammen aus verschiedenen Ausbildungs-“Epochen”.

Nvidia

„Da diese Modelle immer größer werden, können sie den Speicher einer einzelnen GPU zerstören, und manchmal passen sie nicht einmal in den Speicher eines einzelnen Servers“, beobachtete Kharya.

Mit der Megatron-Software zur Aufteilung von Modellen auf verschiedene GPUs und zwischen verschiedenen Servern und “sowohl Datenparallelität als auch Modellparallelität” und intelligentere Netzwerke “können Sie eine sehr, sehr hohe Effizienz erzielen”, sagte er.

„Das bedeutet über 50 % der theoretischen Spitzenleistung von GPUs“, sagte Kharya. “Das ist eine sehr, sehr hohe Zahl, was bedeutet, dass Sie Hunderte von TeraFLOPs für jede GPU erreichen.”

Konkurrenten von Nvidia wie das Startup Cerebras Systems haben begonnen, die theoretische Perspektive zu diskutieren, Multi-Billionen-Parameter-Modelle auf Konvergenz zu trainieren, ohne eine solche Leistung tatsächlich zu zeigen.

Auf die Frage, wann Nvidia und Microsoft trainieren werden, um ein tatsächliches 1-Billionen-Modell zu konvergieren, widersprach Kharya. “Jeder in der Branche arbeitet an diesen wirklich riesigen Modellen, und es wird passieren”, sagte er. “Aber von wem und wann, nun, warte und sieh zu.”

Megatron-Turing NLG 530B ist kein kommerzielles Produkt, sondern ein Forschungsprojekt zwischen Nvidia und Microsoft. Nvidia hat jedoch eine Katalogseite auf seiner Website, auf der Dutzende von Modellen in einsatzbereiten Containern bereitgestellt werden können, einschließlich Transformer-basierter Sprachmodelle und anderer Arten von neuronalen Netzen wie denen für Computer Vision.

Die Modelle sind “vortrainiert”, bereit für Inferenz, aber einige Kunden verbessern die Modelle auch mit zusätzlichen Trainingsläufen auf ihren eigenen Daten, sagte Kharya.

Continue Reading

Copyright © 2021 Meta Mag Inc.