Text-to-Video KI: Google will mit Lumiere neue Standards bei generativer KI für Videos setzen
Die Entwicklungen bei KI schreiten mit einer hohen Geschwindigkeit voran. Zunehmend findet KI auch den Weg in unseren Alltag Anfragen jeglicher Art werden von ChatGPT beantwortet, sogar Codes für Websites und Apps spuckt der kleine Helfer binnen weniger Sekunden aus. Für nahezu jedes Anwendungsszenario gibt es mittlerweile nicht nur eine KI-Anwendung, sondern mehrere. Die Konkurrenz treibt die Fortentwicklungen nochmal ordentlich an.
Zusammenhängende Bewegungen in hoher Qualität
Google forscht mit Lumiere an einem Text-to-Video Diffusionsmodell, dass bisherige Anwendungen wie Pika oder Imagen Video übertreffen und einen neuen Standard bei regenerativen KI-Tools für die Erstellung von Videos setzen soll.Google schreibt auf der Forscherwebsite, dass Lumiere mit einer neuartigen U-Net Architektur ausgestattet ist. Demzufolge sollen Videos mit zusammenhängenden und auch komplexeren Bewegungen in einer hohen Qualität möglich sein. Das unterscheidet Lumiere maßgeblich von bisherigen Anwendungen und auch Lösungsansätzen. Als Trainingsgrundlage fungierten 30 Millionen Videos mit Untertiteln. Lumiere fertigt nicht nur Videos nach einem vorgegebenen Text, sondern kann auch Videos aus Bildern oder einem Bild erzeugen.
Einheitliches Video statt Keyframes
Lumiere ist ein Tool, dass bei der Erstellung von Videos, basierend auf einer Texteingabe, mehrere Prozesse initiiert. Die einzelnen Teilschritte werden so zerlegt, dass in der jeweiligen Ebene Optimierungen stattfinden können, um am Ende ein Video von hoher Qualität zu generieren. Die einzelnen, komplexen Schritte werden im Video gut erörtert und gezeigt.
Übergänge und mehrere Sequenzen weiterhin nicht möglich
An seine Grenzen stößt Google Lumiere jedoch weiterhin, wenn es darum geht Videos mit mehreren Sequenzen zu erstellen und auch cineastische Übergänge zu realisieren. Das ist der nächste große Schritt, den die Google Forscher avisieren.
Die Nutzung generativer T2V-KI dürfte in Zukunft vor allem im Bereich der Werbung und Werbekampagnen-Erstellung nützlich sein. Aufwendige Filmproduktionen könnten zumindest für kürzere Videoteaser leichter von der Hand gehen. Bisherige Lumiere generierte Videoclips sind 5 Sekunden lang und bestehen aus 80 fps (Frames pro Sekunde). Die Auflösung beträgt derzeit 1.024 x 1.024 Pixel und bewegt sich damit noch unter HD. Lumiere kann bisher noch nicht getestet werden. Ob Google eine Open Source Version zur Verfügung stellt, bleibt abzuwarten.