Mit dem Chatbot ChatGPT und verschiedenen Bildgeneratoren gibt es bereits Möglichkeiten, Künstliche Intelligenz für viele produktive Zwecke einzusetzen. Nun hat das Unternehmen hinter ChatGPT, OpenAI, ein neues KI-Modell namens Sora präsentiert. Sora „ist ein KI-Modell, das aus Textanweisungen realistische und phantasievolle Szenen erstellen kann“, heißt es dazu von OpenAI auf der entsprechenden Produktseite.

Das Text-zu-Video-Modell von OpenAI kann Videos mit einer Länge von bis zu einer Minute erstellen und dabei die visuelle Qualität und die Einhaltung der Benutzeranweisungen gewährleisten. Aktuell ist Sora für ausgewählte Teams verfügbar, um kritische Bereiche auf Schäden oder Risiken zu prüfen. Zudem gewährt OpenAI auch einer Reihe von Personen aus der Kunst-, Film- und Designbranche Zugang. Damit erhofft man sich, Feedback darüber zu erhalten, wie man das Modell so weiterentwickeln kann, dass es für kreative Fachleute am hilfreichsten ist. OpenAI berichtet:

„Wir geben unsere Forschungsfortschritte frühzeitig bekannt, um mit Menschen außerhalb von OpenAI zusammenzuarbeiten und von ihnen Feedback zu erhalten, und um der Öffentlichkeit ein Gefühl dafür zu vermitteln, welche KI-Fähigkeiten am Horizont zu erwarten sind.“

Sora soll in der Lage sein, komplexe Szenen mit mehreren Figuren, bestimmten Bewegungsarten und genauen Details des Motivs und des Hintergrunds zu erzeugen. Das Modell versteht nicht nur, was der User in der Eingabeaufforderung verlangt hat, sondern auch, wie diese Dinge in der physischen Welt existieren. Auf der Produktseite von Sora gibt es dazu auch bereits einige Videobeispiele, darunter ein Clip, der aus dem Text-Prompt „Historische Aufnahmen von Kalifornien zur Zeit des Goldrausches“ entstanden ist. Auch detailliertere Textanweisungen sind möglich, beispielsweise mit Beschreibungen von dargestellten Personen, der Umgebung und mehr.

Sora: Bekannte Schwächen und unbekannte Folgen

Wie andere KI-generierte Inhalte hat auch das KI-Modell Sora in seiner derzeitigen Form Schwächen. „Es hat möglicherweise Schwierigkeiten, die Physik einer komplexen Szene genau zu simulieren, und versteht möglicherweise bestimmte Fälle von Ursache und Wirkung nicht“, berichtet dazu OpenAI. „Zum Beispiel könnte eine Person in einen Keks beißen, aber danach hat der Keks möglicherweise keine Bissspuren.“ Das Modell kann aktuell auch räumliche Details einer Aufforderung, beispielsweise links und rechts, verwechseln, und es kann Probleme mit präzisen Beschreibungen von Ereignissen haben, die im Laufe der Zeit stattfinden, wie etwa das Verfolgen einer bestimmten Kamerabahn.

Um in Zukunft die Sicherheit des Sora-Modells zu gewährleisten, lässt man die Video-KI nicht nur durch Teams testen, die im Umgang mit Misinformation und Hassinhalten geschult sind, sondern baut auch Tools zur Erkennung irreführender Inhalte. Letzteres beinhaltet unter anderem einen Klassifikator, der erkennen kann, ob ein Video von Sora erstellt wurde, und bereits bestehende Sicherheitsmethoden, die OpenAI für eigene Produkte mit DALL-E 3 entwickelt hat, und die auch auf Sora anwendbar sind.

Inwieweit ein KI-Video-Modell wie Sora die Welt der Videoproduktion nachhaltig verändern kann, wird die Zukunft zeigen. Die ersten unbearbeiteten Ergebnisse von Sora auf der Website von OpenAI sind bereits sehr eindrucksvoll und zeigen auf, welch rasante Entwicklung KI-generierte Videos allein im letzten Jahr genommen haben. Der bekannte YouTuber Marques Brownlee hat in seinem Channel MKBHD dazu ein spannendes Video veröffentlicht, das auch auf die schnelle Entwicklung der Technologie eingeht. Das YouTube-Video findet ihr daher abschließend unter diesem Artikel.

Foto 2: OpenAI.