Connect with us

Deutsch

Nixons grimmige Mondkatastrophenrede ist jetzt eine Warnung vor der Deepfake-Zukunft

Published

on

Die Unterhaltungsindustrie muss den Einsatz von Deepfakes und Sprachklonen noch regulieren.

Bild: photoworldwide / Getty Images

Am 29. September ging der Emmy für einen interaktiven Dokumentarfilm an „In Event of Moon Disaster“, einen Film, der mithilfe künstlicher Intelligenz (KI) ein gefälschtes Video mit dem ehemaligen US-Präsidenten Richard Nixon erstellt. Der Film zeigt ihn, wie er eine Rede hält, die für den Fall vorbereitet wurde, dass die Apollo-11-Mission fehlschlägt und die Astronauten Neil Armstrong und Buzz Aldrin auf dem Mond sterben werden.

Das Multimedia-Projekt wurde vom Center for Advanced Virtuality des Massachusetts Institute of Technology mit Hilfe des ukrainischen Voice-Cloning-Startups Respeecher erstellt, das an Nixons Stimme arbeitete.

Alex Serdiuk, CEO von Respeecher, sagt, dass die Idee hinter diesem siebenminütigen Film darin bestand, zu zeigen, wie Online-Fehlinformationen in Zukunft aussehen werden. Das Projekt sei “nicht nur eine Gelegenheit, coole Sachen mit unserer Technologie zu machen, sondern auch zu zeigen, wozu diese Technologien fähig sind”, sagte er.

SEHEN: Selbst Computerexperten halten es für eine sehr schlechte Idee, die menschliche Aufsicht über KI zu beenden

In den kommenden Jahren könnten Deepfake-Videos in den sozialen Medien häufiger vorkommen und schwerer zu erkennen sein, mit schrecklichen Folgen auf gesellschaftlicher Ebene. Es ist bereits bekannt, dass Fake News tendenziell schneller verbreitet werden. Eine MIT-Studie hat zum Beispiel gezeigt, dass falsche Behauptungen mit 70% höherer Wahrscheinlichkeit geteilt werden als Wahrheiten.

Aus dieser Gefahr heraus sagt Serdiuk, es sei seine Pflicht, das Bewusstsein für den Missbrauch von Deepfakes zu schärfen. “Das ist ein ziemlich wichtiger Teil unserer Arbeit, die Gesellschaft über synthetische Medientechnologien aufzuklären”, sagt er ZDNet.

Wie man einen Deepfake macht

In Event of Moon Disaster war ein ehrgeiziges Multimedia-Projekt, das von der Expertise von Fachleuten aus verschiedenen Bereichen profitierte. Der Film wurde von Francesca Panetta und Halsey Burgund am MIT Center for Advanced Virtuality gemeinsam inszeniert, die eng mit zwei Startups zusammenarbeiteten, die den technischen Teil des Projekts abwickelten. Das veränderte Image von Richard Nixon wurde von Canny AI aus Tel Aviv geschaffen, während die Stimme des Präsidenten von den Ingenieuren von Respeecher in ihren kleinen Kiewer Büros erzeugt wurde.

Der Emmy-Sieg, der gegen das Projekt „Micro Monsters with David Attenborough“ von Oculus TV und das Projekt „Lessons of Auschwitz VR“ von RT ging, kam für Respeecher, ein Startup, das vor weniger als vier Jahren gegründet wurde, überraschend. Damals nahmen Serdiuk und sein Freund Dmytro Bielievtsov an einem Hackathon teil, um etwas Interessantes zu tun, um ihre mühsamen Datenanalyseaufgaben für Banken und Versicherungen zu ergänzen.

Bei diesem Hackathon konzentrierten sich die meisten Teams auf die Verwendung von KI für die Bildverarbeitung, also beschlossen Serdiuk und Bielievtsov, etwas anderes zu machen und sich auf den Ton zu konzentrieren. Sie begannen, Software zu entwickeln, die es jemandem ermöglichte, mit der Stimme einer anderen Person zu sprechen – kurz gesagt, die Sprachumwandlung zu ermöglichen. Sie mochten das Projekt und beschlossen, es weiterzuentwickeln.

Bald trafen sie Grant Reaber, einen Alumni von Carnegie Mellon, der sich für Akzentumwandlung interessierte, ein etwas ähnliches Gebiet. Die drei beschlossen, ein Unternehmen zu gründen, und Respeecher war geboren.

Als das MIT an ihre Tür klopfte, war ihre Sprachkonvertierungstechnologie noch in der Entwicklung, aber sie dachten, sie seien der Aufgabe gewachsen. Sie brauchten zwei Dinge: alte Aufnahmen von Richard Nixon und eine Aufnahme des Drehbuchs, das der Präsident nie geliefert hatte. Das MIT engagierte einen Schauspieler, um Nixons Sprechstil nachzuahmen, bestimmte Wörter länger auszusprechen als andere und strategische Pausen einzulegen, um die Feierlichkeit zu erhöhen.

Dann schlossen sich die Ingenieure von Respeecher unter Verwendung eines tiefen neuronalen Netzes den beiden an, fügten Nixons Gesangsholz über die Leistung des Schauspielers hinzu und erstellten so eine Deepfake-Audioaufnahme. Für jeden, der zuhört, klingt die synthetische Stimme natürlich und vom Original nicht zu unterscheiden.

SEHEN: Bericht stellt erschreckendes Desinteresse an ethischem und verantwortungsvollem Einsatz von KI bei Führungskräften fest

Um dieses Qualitätsniveau zu erreichen, benötigte Serdiuks Team mehrere Stunden Aufnahme von Nixon und dem Schauspieler. Jetzt haben sie ihre Technologie verbessert und der Prozess ist einfacher.

„Normalerweise verlangen wir etwa 60 Minuten Sprachaufzeichnungen für Ziel- und Quellstimmen“, sagt er. “In vielen Projekten hatten wir weniger oder schlechtere Daten, daher wissen wir, wie man mit allen Daten arbeitet.”

Im Gegensatz zu Text-zu-Sprache-Konvertierungen, die oft künstlich klingen, hilft die Technologie von Respeecher, Emotionen zu bewahren. “Unser Ziel war es, die Qualität auf ein Niveau zu bringen, auf dem sie für anspruchsvolle Tonprofis in Hollywood zufriedenstellend ist”, sagt Serdiuk.

Respeecher beschäftigt derzeit rund 20 Experten und hat namhafte Kunden wie Lucasfilm im Programm. Das Startup hat in den letzten Jahren an mehreren zukunftsweisenden Projekten gearbeitet. Es hat zum Beispiel Michael Yorks Stimme nachgebildet, die es ihm ermöglicht, über seine seltene Krankheit Amyloidose zu sprechen.

„Es war ein sehr cooles Projekt, die Technologie für jemanden zu nutzen, dessen Stimme weg ist, der diese Stimme nicht mehr verwenden kann“, sagt Serdiuk. Sein Team brachte eine weitere ikonische Stimme zurück, die des verstorbenen American-Football-Trainers Vince Lombardi, der während des SuperBowl eine ermutigende Botschaft für diejenigen sandte, die mit der Pandemie zu kämpfen hatten. Darüber hinaus synthetisierte Respeecher die Stimme des jungen Luke Skywalker für die letzte Episode der zweiten Staffel von Mandalorian.

Serdiuk ist optimistisch und sagt, dass sein kleines Kiewer Studio weiterhin zu Blockbustern beitragen wird: “Es braucht Zeit, um Glaubwürdigkeit und Reputation in Hollywood aufzubauen Mund, weil einige Leute in Hollywood unsere Technologie verwenden und diese Erfahrung mit ihren Freunden und Kollegen teilen.”

Sprachumwandlungen können in einer Vielzahl von Projekten nützlich sein, von Videospielen bis hin zu Filmen, von Hörbüchern bis hin zu Callcenter-Assistenten. Respeecher kann männlich-weiblich- und weiblich-männlich-Konvertierungen emulieren, und in Zukunft könnte es sogar für Sprachsynchronisation in Fremdsprachen funktionieren.

Ethische Fragen

Das Klonen von Stimmen wirft eine Reihe ethischer Fragen auf, und einige finden die Technologie beunruhigend. Der Dokumentarfilm „Roadrunner: A Film About Anthony Bourdain“, der im Sommer in die Kinos kam, wurde kritisiert, nachdem bekannt wurde, dass ein Teil der Stimme des verstorbenen Kochs mithilfe von Voice-Cloning-Technologie erstellt wurde. Bourdain hat diese Sätze tatsächlich geschrieben, aber es gab keine Aufzeichnung von ihm, wie er sie las.

Der Einsatz von KI wurde dem Publikum nicht signalisiert. Es wurde erst enthüllt, als Morgan Neville es erwähnte. Außerdem ist nicht klar, ob die Crew von Bourdains Familie die Erlaubnis erhalten hat, seine Stimme synthetisch zu erzeugen.

Serdiuk sagt, dass er und die anderen beiden Mitbegründer eine Reihe von Regeln erstellt haben, die sowohl sie als auch ihre Kunden befolgen sollten. Respeecher stellt keine öffentliche API bereit, und jedes Mal, wenn es eine Stimme klont, fügt es ein Audiowasserzeichen hinzu, um die Erkennung durch spezialisierte Software zu ermöglichen. Wenn ein Kunde die Stimme einer Person klonen möchte, benötigt er außerdem die schriftliche Zustimmung dieser Person oder ihrer Familie.

„Meiner Meinung nach ist an dieser Technologie nichts Neues, das unsere Gesellschaft noch nie zuvor gesehen hat“, sagt Serdiuk. “Es ist nicht anders als Photoshop, oder?”

Die Unterhaltungsindustrie muss Deepfakes noch regulieren, aber Serdiuk glaubt, dass die von seinem Team entwickelten Regeln obligatorisch sein sollten, da Online-Fehlinformationen häufiger werden könnten. Der jüngste Emmy, zu dem sein Team beigetragen hat, könnte ein kleiner Schritt sein, um das Bewusstsein für die Gefahren von Deepfakes zu schärfen.

“Wir verbringen viel Zeit damit, aufzuklären, zu erzählen, was möglich ist, zu zeigen, was möglich ist”, sagte er. “Und dieses MIT-Projekt mit Präsident Nixon ist dafür ein gutes Beispiel.”

Continue Reading

Copyright © 2021 Meta Mag Inc.