Connect with us

Deutsch

Facebook: Hier kommt die KI des Metaverse

Published

on

Um in Augmented und Virtual Reality agieren zu können, muss die künstliche Intelligenz laut Facebook eine „egozentrische Perspektive“ entwickeln.

Zu diesem Zweck gab das Unternehmen am Donnerstag bekannt Ego4D, ein Datensatz von 2.792 Stunden First-Person-Video und eine Reihe von Benchmark-Tests für neuronale Netze, die die Entwicklung von KI fördern sollen, die sich aus der First-Person-Perspektive durch virtuelle Welten bewegen.

Das Projekt ist eine Zusammenarbeit zwischen den Facebook Reality Labs von Facebook in Zusammenarbeit mit Wissenschaftlern aus dreizehn Forschungseinrichtungen, darunter akademische Einrichtungen und Forschungslabore. Die Details der Arbeit sind in einem Papier-Lead festgehalten, der von Facebooks . verfasst wurde Kristen Grauman, “Ego4D: In 2,8.000 Stunden egozentrischen Videos um die Welt.”

Grauman ist wissenschaftlicher Mitarbeiter in der Facebook AI Research Unit des Unternehmens. Ihr Hintergrund als Professorin an der UT Austin konzentrierte sich auf Computer Vision und maschinelles Lernen in verwandten Themen.

Die Idee ist, dass der Datensatz Forscher dazu antreibt, neuronale Netze zu entwickeln, die sich bei der Ausführung von Aufgaben aus der First-Person-Perspektive auf die gleiche Weise auszeichnen, wie große Datensätze wie ImageNet bestehende KI-Programme aus der „Zuschauer“-Perspektive vorangetrieben haben.

Der Sinn der egozentrischen Wahrnehmung besteht darin, zu versuchen, die Probleme zu lösen, die ein neuronales Netzwerk mit grundlegenden Aufgaben wie der Bilderkennung hat, wenn sich der Blickwinkel eines Bildes von der dritten Person zur ersten Person verschiebt, sagte Netflix.

Ebenfalls: Facebook kündigt Investitionen in Höhe von 50 Millionen US-Dollar in „verantwortungsvolle“ Metaverse-Entwicklung an

Die meisten Bilderkennungssysteme, die bei der Erkennung von Objekten, die von der Seitenlinie aus gesehen werden, gut funktionieren, weisen stattdessen hohe Fehlerraten auf, wenn das Objekt so präsentiert wird, wie es aus der Sicht einer das Objekt begegnenden Person gesehen würde.

Die Ego4D-Initiative zielt speziell auf The Metaverse ab, die kommende Welt der immersiven sozialen Netzwerke, die Facebook-CEO Mark Zuckerberg im letzten Ergebnisbericht des Unternehmens diskutierte.

„Diese Benchmarks werden die Erforschung der Bausteine ​​vorantreiben, die notwendig sind, um intelligentere KI-Assistenten zu entwickeln, die nicht nur in der realen Welt, sondern auch im Metaversum, wo physische Realität, AR und VR alle in einem einzigen Raum zusammenkommen, verstehen und interagieren können.“ sagte Facebook.

Die 2.792 Stunden Videomaterial wurden von Facebook-Mitarbeitern mit verschiedenen Kameras gesammelt. Die Vuzix Blade Augmented-Reality-Headsets von Vuzix sind nur eines davon, weitere sind GoPro, Pupil Labs, ZShades und Wee-view. Der Zweck des Mischens verschiedener Sets besteht darin, eine “Überanpassung” zu vermeiden, schreiben Grauman und Mitarbeiter, das Phänomen, bei dem ein neuronales Netzwerk lediglich Frames von Videoinformationen gespeichert hat, anstatt darauf abgestimmt zu sein, Ähnlichkeiten über Unterschiede abzuleiten.

Facebook sagte, das Video sei „von 750 einzigartigen Kameraträgern aus 73 weltweiten Standorten und 9 verschiedenen Ländern aufgenommen worden“. Einige davon stammten von Facebook-Mitarbeitern auf dem Firmengelände, andere von Mitarbeitern der Universität.

Ebenfalls: Facebook bringt Metaverse zur Arbeit mit Horizon Workrooms (und Sie dachten, Zoom-Müdigkeit sei schlecht)

Das “4D” im Namen steht für den zeitlichen Aspekt des Videos. Die Mitarbeiter von Facebook verbrachten 250.000 Stunden damit, sich Videos anzuschauen und gesprochene Kommentare zu liefern, die zusammenfassen, was in den Videos vor sich geht, mit Zeitstempeln.

Facebook sagt, dass die Erzählungen „zeitlich dicht sind“, da: „Im Durchschnitt haben wir 13,2 Sätze pro Minute Video erhalten, also insgesamt 3,85 Millionen Sätze. Insgesamt beschreiben die Erzählungen das Ego4D-Video mit 1.772 einzigartigen Verben (Aktivitäten) und 4.336 eindeutige Nomen (Objekte).”

Der Datensatz soll zur Entwicklung neuronaler Netze verwendet werden, die bei einer Vielzahl neuer Benchmark-Tests durchgeführt werden. Zu diesem Zweck beschreiben Grauman und seine Mitarbeiter in dem Papier mehrere neue Tests, die sie entwickelt haben, die ein neuronales Netz erfordern, um eine Antwort auf Aufgaben in der Vergangenheit zu produzieren, wie z Aktivität oder Zukunftsprognosen, wie z. B. das Erstellen einer Beschreibung des Ergebnisses einer Aktion.

facebook-ego4d-predicting-things-oct-2021.jpg

Facebook

facebook-ego4d-episodic-memory.jpg

Eine Aufgabe für ein neuronales Netz könnte beispielsweise darin bestehen, eine Anfrage in natürlicher Sprache zu beantworten, die erfordert, dass das Programm den Inhalt der Anfrage einem Videoframe zuordnet. Ein Beispiel ist, den Computer zu fragen: “Wann habe ich meinen Kindern vorgelesen”, und der Computer müsste die Szene finden, in der der Kameraträger seinen Kindern vorliest. Die Aufgabe wird von den menschlichen Annotationsmitarbeitern beschriftet, die eine vorformatierte Liste von Beschriftungen erhalten und diese den Clips zuweisen müssen.

Ebenfalls: Facebook hat Ihre Erinnerungen bereits, Smart Glasses werden es mehr bekommen

Facebook gab an, auf diese Weise 74.000 Abfragen zu 800 Stunden Video zugewiesen zu haben.

In einem zukünftigen Vorhersagetest muss der Computer möglicherweise vorhersagen, mit welchem ​​Objekt in einem Videobild der Kameraträger als nächstes interagieren wird. Wenn sie also an einem Tisch sind, der Teig rollt, könnte die nächste vorhergesagte Aktion darin bestehen, eine Teigkugel auf dem Tisch zu greifen. Das Programm macht die Vorhersage, indem es eines aus einer voreingestellten Liste von Verben auswählt, die vom Anmerkungspersonal an Videobilder angehängt wurden, und eine Zeitschätzung anhängt, so dass “Teig in 0,8 Sekunden nehmen” ausgespuckt wird.

Die Datensätze für Ego4D werden nächsten Monat auf Github zur Verfügung gestellt, teilte Facebook mit. Die Benutzer müssen eine Datennutzungsvereinbarung unterzeichnen.

Continue Reading

Copyright © 2021 Meta Mag Inc.