Animierte Porträtvideos mit Alibaba EMO

Das Entwicklerteam von Alibaba hat ein neues KI System vorgestellt mit dem Namen EMO. Mit diesem Tool, kannst du aus einzelnen Fotos ein animiertes Porträtvideo erstellen.

Die Ergebnisse sind bemerkenswert. Denn die Person des Fotos spricht in einer lebensechten Weise. Schau dir das Beispiel in dem Video einmal an:

EMO (Emote Portrait Alive)

Die Infos zum Tool gibt es hier: https://github.com/HumanAIGC/EMO

Kurze Zusammenfassung

EMO ist ein KI-System von Alibaba, das aus Einzelbildern animierte Porträtvideos erstellt, die lebensechte Gesichtsbewegungen und Kopfhaltungen aufweisen.
Ziel ist es, die Realismus und Ausdrucksstärke bei der Generierung von sprechenden Kopf-Videos zu verbessern, indem die direkte Audio-zu-Video-Synthese verwendet wird.
EMO erzielt überzeugende Ergebnisse in der Generierung von Videos sowohl für Gespräche als auch für Gesang, und kann Videos jeder Dauer basierend auf der Länge des Eingangsaudios erstellen.

Neuartige Funktionsweise von EMO

Das kürzlich auf arXiv veröffentlichte Forschungspapier beschreibt ein System, das faszinierende und ausdrucksstarke Gesichtsbewegungen und Kopfhaltungen erzeugen kann, die eng mit den Feinheiten eines bereitgestellten Audiotracks synchronisiert sind.

Die wichtigsten Punkte der Forschung

Die wichtigste Punkte der Forschung habe ich euch hier zusammengefasst:

Herausforderung und Zielsetzung

Das Ziel der Forschung ist es, die Realismus und Ausdrucksstärke bei der Generierung von sprechenden Kopf-Videos zu verbessern.
Die Herausforderung besteht darin, die Beziehung zwischen Audiohinweisen und Gesichtsbewegungen dynamisch und nuanciert zu gestalten.

Bisherige Einschränkungen

Traditionelle Techniken erfassen oft nicht das gesamte Spektrum menschlicher Ausdrücke und die Einzigartigkeit individueller Gesichtsstile.
Bestehende Ansätze verwenden oft 3D-Modelle oder Gesichtspunkte als Zwischenschritte, was die Generierung beeinträchtigen kann.

Vorgeschlagene Lösung (EMO)

Ein neuartiges Framework namens EMO wird vorgeschlagen, das eine direkte Audio-zu-Video-Synthese verwendet, ohne auf Zwischenmodelle oder Gesichtspunkte zurückzugreifen.
EMO ermöglicht nahtlose Bildübergänge und konsistente Identitätserhaltung, was zu hoch expressiven und realistischen Animationen führt.

Experimentelle Ergebnisse

EMO kann überzeugende Videos von sprechenden und sogar singenden Charakteren in verschiedenen Stilen generieren.
Die Methode übertrifft bestehende State-of-the-Art-Methoden in Bezug auf Ausdrucksstärke und Realismus signifikant.

Methoden und Netzwerkarchitektur

Die Methode verwendet ein Backbone-Netzwerk, Referenznetzwerk, Audio-Schichten und Temporale Module, um Gesichtsbewegungen basierend auf dem Audiosignal zu generieren.
Das Training erfolgt in drei Stufen: Bildvorverarbeitung, Videotraining und Integration der Geschwindigkeitsschichten.

Experimente und Evaluation

Die Methode wird anhand verschiedener quantitativer Metriken wie FID, FVD und SyncNet bewertet und zeigt eine überlegene Leistung gegenüber früheren Ansätzen.
Qualitative Vergleiche zeigen, dass die Methode eine breite Palette von Gesichtsausdrücken und Bewegungen erzeugen kann, selbst bei unterschiedlichen Porträtstilen und langen Audioeinspielungen.

Beschränkungen

Die Methode erfordert mehr Rechenzeit im Vergleich zu Methoden, die nicht auf Diffusionsmodellen basieren.
Es besteht das Risiko der unbeabsichtigten Generierung anderer Körperteile ohne explizite Steuersignale.

Dies markiert einen bedeutsamen Fortschritt im Bereich der Generierung von sprachgesteuerten Videoporträts, der KI-Forschende seit langem vor Herausforderungen stellt.

Im Gegensatz zu herkömmlichen Techniken, die oft nicht das gesamte Spektrum menschlicher Ausdrücke erfassen können und die Einzigartigkeit individueller Gesichtsstile vermissen lassen, präsentiert das Team unter der Leitung des Hauptautors Linrui Tian von EMO einen innovativen Ansatz.

EMO nutzt einen direkten Syntheseansatz von Audio zu Video, um die Notwendigkeit von Zwischenschritten wie 3D-Modellen oder Gesichtslandmarken zu umgehen.

Audio-zu-Video-Synthese direkt angewendet

Das EMO-System nutzt eine KI-Technik namens Diffusionsmodell, die bemerkenswerte Fähigkeiten zur Generierung realistischer synthetischer Bilder besitzt.

Die Entwickler haben das Modell mit einem umfangreichen Datensatz von über 250 Stunden Videomaterial trainiert, das aus Reden, Filmen, Fernsehsendungen und Gesangsauftritten zusammengestellt wurde.

Im Gegensatz zu früheren Methoden, die auf 3D-Gesichtsmodellen oder Mischformen zur Annäherung von Gesichtsbewegungen basierten, wandelt EMO die Audio-Wellenform direkt in Videoframes um. Dadurch können subtile Bewegungen und individuelle Merkmale natürlicher Sprache präzise erfasst werden.

Erzeugung realistischer Gesangsvideos

Neben Gesprächsvideos kann EMO auch singende Porträts mit passenden Mundformen und ausdrucksstarken Gesichtsausdrücken synchron zu den Gesangsstimmen animieren.

Das System unterstützt die Erstellung von Videos für jede beliebige Dauer basierend auf der Länge des Eingangsaudios.

Experimente, die im Papier beschrieben werden, zeigen, dass EMO deutlich bessere Ergebnisse in Bezug auf Videoqualität, Identitätserhaltung und Ausdruckskraft erzielt als bisherige State-of-the-Art-Methoden.

Eine Benutzerstudie ergab, dass die von EMO generierten Videos natürlicher und emotionaler wirken als die von anderen Systemen erstellten.

Ethik und Ausblick

Die Forschung im Bereich EMO weist auf eine Zukunft hin, in der Videoinhalte aus lediglich einem Bild und einer Audiodatei synthetisiert werden können.

Dennoch bleiben ethische Bedenken bezüglich potenziellen Missbrauchs dieser Technologie (Deepfakes), sei es zur Imitation von Personen ohne ihre Zustimmung oder zur Verbreitung von Fehlinformationen.

Diese Entwicklung ist in meinen Augen sehr gefährlich, denn es reicht ein Foto von einem sozialen Netzwerk aus, um von dir einen Deepfake zu erstellen.