Bislang ließ sich der KI-basierte Chatbot ChatGPT (App Store-Link) von OpenAI vornehmlich auf textbasierte Art und Weise nutzen. Wie OpenAI nun aber bekanntgegeben hat, wurde das eigene Sprachmodell GPT-4o, mit dem sich ChatGPT nutzen lässt, um eine Funktion zur direkten Bildgenerierung in ChatGPT erweitert. Mit diesem neuen Feature können Nutzer und Nutzerinnen des Chatbots Bilder auf Basis von Text-Prompts erstellen lassen, ohne dafür ein externes Modell zur Bildgenerierung aufrufen zu müssen.

Wie OpenAI in einem neuen Artikel auf der eigenen Website berichtet, ist GPT-4o fortan auf die gleichzeitige Verarbeitung von Text- und visuellen Informationen ausgelegt. Im Artikel heißt es dazu:

„Die GPT-4o-Bilderzeugung zeichnet sich durch die exakte Wiedergabe von Text, die präzise Befolgung von Eingabeaufforderungen und die Nutzung der 4o-eigenen Wissensdatenbank und des Chat-Kontextes aus – einschließlich der Umwandlung hochgeladener Bilder oder deren Verwendung als visuelle Inspiration. Diese Funktionen machen es einfacher, genau das Bild zu erstellen, das Sie sich vorstellen. Sie helfen Ihnen, effektiver durch Bilder zu kommunizieren und machen die Bilderstellung zu einem praktischen Werkzeug mit Präzision und Leistung.“

Laut OpenAI habe man die eigenen Modelle auf die gemeinsame Verteilung von Online-Bildern und -Text trainiert und dabei nicht nur gelernt, wie Bilder mit Sprache zusammenhängen, sondern auch, wie sie miteinander zusammenhängen. In Kombination mit aggressivem Post-Training verfüge das resultierende Modell „über eine erstaunliche visuelle Gewandtheit und ist in der Lage, Bilder zu generieren, die nützlich, konsistent und kontextbewusst sind.“

Bildergebnisse lassen sich kontextbasiert verfeinern

Im Zuge der Bildgenerierung durch GPT-4o lassen sich erstellte Bildkompositionen auch im Anschluss durch Texteingaben in Gesprächsform weiter verfeinern und anpassen. GPT-4o kann auf Bildern und Text im Chat-Kontext aufbauen und so für Konsistenz sorgen. Wenn man beispielsweise eine Videospielfigur entwirft, bleibt das Aussehen der Figur über mehrere Änderungsprozesse hinweg kohärent, während man sie verfeinert und experimentiert.

Die Bilderzeugung von GPT-4o folgt darüber hinaus auch detaillierten Aufforderungen „mit viel Liebe zum Detail“, wie OpenAI berichtet. Während andere Systeme mit ~5-8 Objekten zu kämpfen hätten, könne GPT-4o mit bis zu 10-20 verschiedenen Objekten umgehen. Die engere Bindung von Objekten an ihre Eigenschaften und Beziehungen ermögliche eine bessere Kontrolle. Zudem könne GPT-4o vom User hochgeladene Bilder analysieren und von ihnen lernen, indem es ihre Details nahtlos in den Kontext integriert, um die Bilderzeugung zu unterstützen.

Auch für Personen mit kostenlosem Zugang nutzbar

Zum Start will OpenAI die Bildgenerierung in GPT-4o allen Nutzern und Nutzerinnen zur Verfügung stellen, die ein Plus-, Pro- oder Team-Abonnement aufweisen. Aber auch Personen, die den kostenfreien Zugang von ChatGPT verwenden, ebenso wie Software-Entwickler und -Entwicklerinnen über eine Schnittstelle, profitieren von der neuen Funktion. Gleichzeitig weist OpenAI auf die Einschränkungen und Schwächen des Features hin: So hat die Bildgenerierungs-KI unter anderem Schwierigkeiten bei der Erstellung von kleinen Textgrößen, bei sehr komplexen Layouts oder auch bei mehrsprachigen Inhalten. Im Zuge der Transparenz sollen mit GPT-4o generierte Bilder mit einer digitalen Kennzeichnung versehen werden.

Foto 2 u. 3: OpenAI.