Google Imagen Video setzt Text in HD-Videos um

Der US-Suchmaschinenkonzern Google arbeitet an der Entwicklung eines neuen KI-Systems, welches basierend auf Texteingaben hochauflösende HD-Videos erzeugt. In den Videos werden Bewegungen und Perspektiven geboten. Das Unternehmen plant auf Grundlage von Textanfragen ein 5,3 Sekunden langes Video mit 1.280*720 Pixel und 24 Bildern pro Sekunde zu generieren.

Von dem KI-System Imagen Video erfolgt die Durchführung der Videogenerierung in Zwischenschritten. Die Videos werden bei verminderter Auflösung und einer geringeren Anzahl Bildern pro Sekunde gerendert. Die Gesamtarbeit umfasst neun Schritte und durch so genannte Super Resolution entsteht das Endprodukt. Die Super Resolution bedeutet das Hinzufügen von Pixeln und Frames räumlich wie zeitlich.

Das Training für Imagen Video bestand aus 14 Millionen Text-zu-Video Paaren und 60 Millionen Bild-zu-Video Paare, die aus dem frei zugänglichen LAION-400M-Datensatz stammten. Die Bilder sollen der Nachbildung von Kunststilen dienen. Nach Integration von Systemen, die Vorurteile, Stereotypen und diskriminierende Blickpunkte unterbinden, soll Google Imagen Video und der Quelle zum Download freigegeben werden.

Alle bisherigen KI-Bildgeneratoren wie Dall-E 2 oder Neuroflash erzeugen basierend auf Texten virtuelle Kunstwerke, während Imagen Video durch einfache Texteingaben kurze Videos erschafft.

Die KI-Bildgeneratoren werden teilweise kritisch gesehen, weil sie auch Stereotype bedienen. Bis zur Veröffentlichung von Google Imagen Video wird es noch eine Weile dauern und wir dürfen gespannt sein, was für Videos dann erschaffen werden.

Das könnte Ihnen gefallen