Connect with us

Deutsch

Der Stand der KI im Jahr 2021: Maschinelles Lernen in der Produktion, MLOps und datenzentrierte KI

Published

on

Es ist wieder soweit: Berichte zum Stand der KI für 2021 sind erschienen. Vor ein paar Tagen war es der Bericht zu Machine Learning, Artificial Intelligence and Data von Matt Turck, über den ZDNet Big on Data-Kollege Tony Baer berichtet hat. Diese Woche ist es der State of AI 2021-Bericht von Nathan Benaich und Ian Hogarth.

Nach der Veröffentlichung des wahrscheinlich umfassendsten Berichts zum Zustand der KI im Jahr 2020 haben Air Street Capital und RAAIS-Gründer Nathan Benaich und AI Angel Investor und UCL IIPP Gastprofessor Ian Hogarth sind wieder da für mehr.

In einer geschätzten jährlichen Tradition haben wir uns mit Benaich und Hogarth getroffen, um Themen zu besprechen, die für uns im Bericht herausragten.

MLOps, maschinelles Lernen in der Produktion

Zunächst einmal gibt es Überschneidungen mit den Themen, über die Turck und Baer berichtet haben, und das aus gutem Grund. Wie Baer betonte, macht die Welle von Börsengängen und die Verbreitung von Einhörnern diesen Markt zu einem eigenen Sektor, und das ist nicht zu ignorieren. Um einen Überblick über die Markttrends zu erhalten, empfehlen wir unseren Lesern, einen Blick auf die Berichterstattung von Baer zu werfen.

Wir sind jedoch der Meinung, dass der Bericht State of AI 2021 mehr Themen abdeckt: die neuesten Entwicklungen in der KI-Forschung, Industrie, Talente und Politik, während er auch Vorhersagen wagt. Tatsächlich verfolgen Benaich und Hogarth ihre Vorhersagen, und es geht ihnen ziemlich gut. Im Jahr 2020 haben sie beispielsweise die Hindernisse bei der Übernahme von Arm durch Nvidia und bei Börsengängen im Zusammenhang mit KI und Biotechnologie richtig vorhergesagt.

Wie Benaich feststellte, haben sie als Investoren in verschiedenen, meist noch in der Anfangsphase befindlichen Unternehmen für maschinelles Lernen Zugang zu großen KI-Labors, akademischen Gruppen, aufstrebenden Start-ups, größeren Unternehmen sowie Personen, die in der Regierung arbeiten. Daher versuchen sie, all diese verschiedenen Blickwinkel in einem Open Source-Produkt für das Gemeinwohl zu synthetisieren, das darauf abzielt, alle Interessengruppen ganzheitlich zu informieren.

Wir haben einige übergreifende Themen ausgewählt, die für uns im Bericht herausragten, da wir sie auch im Laufe des Jahres identifiziert haben. Der erste ist MLOps – die Kunst und Wissenschaft, maschinelles Lernen in die Produktion zu bringen. Bei der Operationalisierung der KI verlagert sich der Schwerpunkt von glänzenden neuen Modellen auf vielleicht banalere, aber praktische Aspekte.

Mit der zunehmenden Leistungsfähigkeit und Verfügbarkeit von Modellen für maschinelles Lernen sind die Gewinne aus Modellverbesserungen marginal geworden. In diesem Zusammenhang wird sich die Machine-Learning-Community zunehmend der Bedeutung besserer Datenpraktiken und allgemein besserer MLOps bewusst, um zuverlässige Machine-Learning-Produkte zu entwickeln.

Hazy Research, Stanford

Mit der zunehmenden Leistungsfähigkeit und Verfügbarkeit von Modellen für maschinelles Lernen sind die Gewinne aus Modellverbesserungen marginal geworden. In diesem Zusammenhang wird sich die Machine-Learning-Community zunehmend der Bedeutung besserer Datenpraktiken und allgemein besserer MLOps bewusst, um zuverlässige Machine-Learning-Produkte zu entwickeln.

Benaich merkte an, dass sie es für wichtig hielten, in stärker industrieorientierten akademischen Arbeiten rund um die Datenqualität und verschiedene Probleme, die sich in Daten befinden können, die sich letztendlich in Richtung ML-Modelle ausbreiten können, erneute Aufmerksamkeit zu schenken, um zu bestimmen, ob Modelle gut vorhersagen oder nicht:

„Viele Hochschulen konzentrierten sich darauf, mit statischen Benchmarks zu konkurrieren, die Modellleistung offline auf diesen Benchmarks zu zeigen und dann in die Industrie zu wechseln. Also ging es bei der ersten Generation viel darum – lass uns einfach ein Modell bekommen, das für ein bestimmtes Problem funktioniert, und dann Behandeln Sie alle Probleme oder Änderungen, wann immer sie auftreten.

Es wurde viel Geld, Zinsen und Entwicklungszeit in MLOps gesteckt. Und dies wird durch die Idee motiviert, dass maschinelles Lernen kein statisches Softwareprodukt ist, das man einmal schreiben und vergessen kann. Sie müssen es ständig aktualisieren, und es ist nicht nur [about] das Modell aktualisieren.

Sie müssen prüfen, wie sich Ihre Klassen im Laufe der Zeit verändern oder ob Sie immer noch die richtigen Benchmarks verwenden, um festzustellen, ob ein neues Modell, das Sie trainiert haben, in der Produktion funktioniert oder nicht. Möglicherweise treten Probleme auf, wie die Auswahl verschiedener zufälliger Seeds für Ihr Modell und dann ein völlig anderes Verhalten bei realen Daten oder sogar, dass Daten, die Sie verwendet haben, Müll sind”.

Das klingt intuitiv richtig und kommt wahrscheinlich jedem an, der mit Machine-Learning-Modellen und Datenpipelines gearbeitet hat. Jetzt geben die Leute diesem Phänomen Namen, wie etwa Verteilungsverschiebungen (Nichtübereinstimmungen in Datensatzversionen) und Datenkaskaden (Probleme mit Daten, die nachgelagerte Operationen beeinflussen). Da die Benennung der Dinge der erste Schritt ist, um sie zu analysieren und ernster zu nehmen, ist das gut.

Datenzentrierte KI: Gute Daten, schlechte Daten, Verteilungsverschiebungen und Datenkaskaden

Eine Verteilungsverschiebung tritt auf, wenn sich die Daten zum Test-/Bereitstellungszeitpunkt von den Trainingsdaten unterscheiden. In der Produktion geschieht dies häufig in Form von Konzeptdrifts, bei denen sich die Testdaten im Laufe der Zeit nach und nach ändern.

Da maschinelles Lernen zunehmend in realen Anwendungen eingesetzt wird, wird die Notwendigkeit eines soliden Verständnisses von Verteilungsverschiebungen von größter Bedeutung. Dies beginne mit der Gestaltung anspruchsvoller Benchmarks, stellen Benaich und Hogarth im Bericht fest.

Benaich glaubt, dass es schwierig ist, konkrete Beispiele für Verteilungsverschiebungen in der realen Welt zu finden, da Unternehmen wahrscheinlich nicht möchten, dass die Welt weiß, dass sie von solchen Problemen betroffen sind. Aber einer der Bereiche, auf die sich dies auswirken könnte, wären die Preisgestaltung auf verschiedenen Einzelhandels-Websites.

Häufig befindet sich im Backend eine durch maschinelles Lernen angetriebene dynamische Preisfindungsmaschine, deren Ausgabe davon abhängt, wie viele Informationen sie über Sie haben, bemerkte Benaich. Eine Vertriebsverschiebung kann also bedeuten, dass Sie am Ende einen sehr, sehr unterschiedlichen Preis für ein bestimmtes Produkt erhalten, das Sie sich ansehen, je nachdem, welche Daten verwendet werden. Interessanterweise zielt Chinas Marktregulierungsbehörde genau auf diese Praxis ab.

Benaich betonte die Tatsache, dass mindestens zwei große neue Datensätze veröffentlicht wurden, die darauf abzielen, Verteilungsverschiebungen zu behandeln, WILDS und Shifts, die von einer Reihe amerikanischer und japanischer Universitäten und Unternehmen bzw. Yandex entwickelt wurden.

Die Verwendung von mehr branchenorientierten Datensätzen in der Wissenschaft bedeutet, dass die letztendlich akademischen Projekte in der Produktionsumgebung erfolgreicher sind, da es weniger Verteilungsverschiebungen gibt, wenn man von der Industrie in die Wissenschaft wechselt und umgekehrt, bemerkte Benaich.

opera-snapshot-2021-10-13-164354-docs-google-com.png

Die Bedeutung von Daten ist nicht neu – es gibt etablierte mathematische, algorithmische und systemische Techniken für die Arbeit mit Daten, die über Jahrzehnte entwickelt wurden.

Neu ist, auf diesen Techniken aufzubauen und sie im Lichte moderner KI-Modelle und -Methoden zu überprüfen. Noch vor wenigen Jahren hatten wir weder langlebige KI-Systeme noch die aktuelle Generation leistungsstarker Tiefenmodelle.

Google-Forscher definieren Datenkaskaden als „Zusammensetzungsereignisse, die negative, nachgelagerte Auswirkungen von Datenproblemen verursachen“. Unterstützt durch eine Umfrage unter 53 Praktikern aus den USA, Indien, Ost- und Westafrika, warnen sie davor, dass die derzeitige Praxis die Datenqualität unterschätzt und zu Datenkaskaden führt.

Es ist eine ziemlich intuitive Idee – der Dominoeffekt. Wenn Sie am Anfang ein Problem haben, wird es wahrscheinlich verschwinden, wenn Sie den letzten Dominostein erreichen. Bemerkenswert ist, dass die überwältigende Mehrheit der Datenwissenschaftler berichtet, eines dieser Probleme erlebt zu haben.

Bei dem Versuch, zu erklären, warum diese Probleme tatsächlich aufgetreten sind, lag dies hauptsächlich daran, dass die Bedeutung von Daten im Kontext ihrer Arbeit im Bereich der KI nicht erkannt wurde, keine Schulung in diesem Bereich vorhanden war oder kein Zugriff auf genügend spezialisierte Daten für die besonderes Problem, das sie lösen wollten.

Das deutet darauf hin, dass es in der Welt des maschinellen Lernens mehr Nuancen gibt als „gute Daten“ und „schlechte Daten“. Da Datensätze vielschichtig sind, unterschiedliche Teilmengen in unterschiedlichen Kontexten verwendet werden und sich unterschiedliche Versionen entwickeln, ist der Kontext der Schlüssel zur Definition der Datenqualität. Die Erkenntnisse aus dem maschinellen Lernen in der Produktion führen zu einer Verlagerung des Fokus von modellzentrierter zu datenzentrierter KI.

Datenzentrierte KI ist ein Konzept, das in Hazy Research, der Forschungsgruppe von Chris Ré in Stanford, entwickelt wurde. Wie bereits erwähnt, ist die Bedeutung von Daten nicht neu – es gibt etablierte mathematische, algorithmische und systemische Techniken für die Arbeit mit Daten, die über Jahrzehnte entwickelt wurden.

Neu ist, auf diesen Techniken aufzubauen und sie im Lichte moderner KI-Modelle und -Methoden zu überprüfen. Noch vor wenigen Jahren hatten wir weder langlebige KI-Systeme noch die aktuelle Generation leistungsstarker Tiefenmodelle.

Begleiten Sie uns nächste Woche, wenn wir das Gespräch mit Benaich und Hogarth fortsetzen, um Themen wie Sprachmodelle, KI-Kommerzialisierung und KI-gestützte Biotechnologie zu behandeln.:

Continue Reading

Copyright © 2021 Meta Mag Inc.