Mit Texten, Vorlagen und in mehreren Schritten

ChatGPT kann jetzt auch Bilder: Konsistent und im Kontext

OpenAI erweitert sein Sprachmodell GPT-4o um eine neue Funktion zur direkten Bildgenerierung. Nutzer von ChatGPT können künftig Bilder auf Basis von Texteingaben erstellen lassen, ohne dafür ein externes Bildmodell aufrufen zu müssen.

„photorealistic image of farmer’s market in toronto on a saturday in summer 2006“

Die Bildfunktion ist damit zukünftig Teil desselben Modells, das auch Texte analysiert und generiert. Nach Angaben des Unternehmens ermöglicht dies die nahtlose Verknüpfung von Sprache und Bild.

Das System sei auf die gleichzeitige Verarbeitung von Texten und visuellen Informationen ausgelegt. Dadurch lasse sich die Qualität der generierten Bilder verbessern – insbesondere bei inhaltlich klar definierten Darstellungen wie Beschilderungen, technischen Skizzen, Infografiken oder beschrifteten Illustrationen. Auch bei der Positionierung und Gestaltung von Texten innerhalb eines Bildes zeige der neue Ansatz Fortschritte.

Verfeinerung im Dialog

Ein wesentliches Merkmal der neuen Lösung ist laut OpenAI die Möglichkeit, Bilder in mehreren Schritten zu verfeinern. Nutzer können ein erstes Bild erstellen und dann gezielt Anpassungen vornehmen, etwa Farben ändern oder Details ergänzen. Dabei bleibt der bisherige Verlauf des Gesprächs erhalten, sodass das Modell frühere Anweisungen in neuen Bildern berücksichtigen könne.

Zum Start steht die Bildfunktion in GPT‑4o für Nutzerinnen und Nutzer mit Plus-, Pro-, Team- und sogar kostenfreiem ChatGPT-Zugang bereit. Auch eine Schnittstelle für Softwareentwickler ist vorgesehen.

Nicht ohne Einschränkungen

OpenAI weist darauf hin, dass bestimmte Schwächen weiterhin bestehen: Dazu gehören etwa Schwierigkeiten bei der Darstellung kleiner Textgrößen, bei komplexen Layouts oder bei mehrsprachigen Inhalten. Ebenso könne es zu Fehlern bei sehr langen Bildformaten kommen, etwa wenn Bildinhalte abgeschnitten würden. Zudem neige das Modell zu Halluzinationen, wenn es mit Eingaben mit sehr geringem Informationsanteil zu tun habe.

Um die Herkunft der Bilder transparent zu machen, würden sie mit digitalen Kennzeichnungen versehen. Das solle die Nachvollziehbarkeit verbessern und Missbrauch vorbeugen.

26. März 2025 um 06:46 Uhr von Nicolas Fehler gefunden?

19 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Jake_Peralta 26.03.2025, 07:22 Uhr

Wenn das so „gut“ funktioniert wie Dall-E dann können sie es direkt lassen. Das ist fast auf Siri Niveau um es ganz hart zu formulieren.

Antworten Melden

KaroX 26.03.2025, 07:36 Uhr

Alles klar. Dann schalten wir die Funktion wieder ab. Danke für dein Feedback.

Antworten Melden

Antworten Melden

Tom Doe 26.03.2025, 07:54 Uhr

Bester Mann xD
Jake_Peralta 26.03.2025, 08:15 Uhr

Ne verbessern wäre auch eine Idee, aber stimmt, abschalten käme direkt danach. In aktueller Form ist der Dienst nicht zu gebrauchen. Gerne mal probieren und sich ein Bild generieren lassen, bei dem auf der einen Seite ein bestimmter Text stehen soll & auf der anderen Seite ein Gegenstand. Selbst nach 10-maligen Hinweis, dass der Text völlig falsch platziert ist und der Gegenstand falsch wird es nicht richtig. Wo da der Mehrwert drin liegen soll, außer einer kurze Spielerei.
jap 26.03.2025, 09:03 Uhr

Du redest von der alten Version. Hier im Artikel ist die Bildgenerierung doch wesentlich verbessert.
KaroX 26.03.2025, 09:38 Uhr

Lass uns doch erst mal selbst schauen wie es funktioniert als unnötige Kritik über etwas auszuüben die wir noch gar nicht selbst probieren konnten. Dass die aktuelle Bilderstellung murks ist, ist doch bekannt. Gerade wenn du irgendeinen Text da haben möchtest.

thomas65s 26.03.2025, 10:57 Uhr

Na dann programmiere es doch einfach besser! Meckern ist billig

Antworten Melden

Antworten Melden

Jake_Peralta 26.03.2025, 11:53 Uhr

Das ist so ein *piep* Argument. Ich stelle nicht das größte KI Unternehmen der Welt. Darf man Apple hier sonst jemals wieder kritisieren, ich meine keiner der Apple hier je kritisiert hat kann es besser. Fußballer am besten auch nie wieder einordnen oder kritisieren, sind ja in der Regel trotzdem besser als jeder vorm Fernseher.

FranktheTank 26.03.2025, 08:40 Uhr

Letzter Satz ist wichtig. Man hätte auch noch die Energie erwähnen können die jetzt wohl zusätzlich noch aufgewendet werden muss um ein Foto herzustellen.

Ragnar 26.03.2025, 08:54 Uhr

Oh ja. DAS wird gerne vergessen. Der ganze KI Kram verschwendet unglaubliche Energiemengen weltweit.

Antworten Melden

Antworten Melden

jap 26.03.2025, 09:02 Uhr

Das Bitcoin Thema noch viel mehr.
Jan 26.03.2025, 10:55 Uhr

Da wird gar nichts verschwendet. Wenn ich die KI benötige, dann ist dem halt so. Ich arbeite jeden Tag produktiv damit. Es erleichtert meinen Job ungemein, ich schaffe mehr am Tag und muss auf Arbeit dennoch weniger schaffen als früher. Von Verschwendung kann also keine Rede sein. Geh mal bisschen mit der Zeit. Wer KI nicht nutzt der verpasst was.
thomas65s 26.03.2025, 11:00 Uhr

wer entscheidet denn ob Energie verschwendet oder sinnvoll genutzt wird? Du?
Klausi 26.03.2025, 16:23 Uhr

Glückwünsche. Wieder eine Minderheit die sich erhebt.

Es bleibt dennoch Fakt, dass KI Unmengen an Strom verbrennt

Tom 26.03.2025, 09:02 Uhr

Habe eine Infografik erzeugen lassen, welche die Matrix-Multiplikation erklären soll. Die Grafik sah toll aus, allerdings waren alle Rechnungen und Erklärungen komplett falsch.

Steff 26.03.2025, 19:20 Uhr

Von wegen konsistent! Es ist eine Qual, wenn man Verbesserungen nachschiebt. Das geht oft von vorn und ganz anders los.

dennis 26.03.2025, 19:26 Uhr

Ab wann kommt das? Unverzüglich?

Josi 27.03.2025, 09:21 Uhr

Das tritt nach meiner Kenntnis … ist das sofort, unverzüglich.

Antworten Melden

Antworten Melden
Mr Smizz 29.03.2025, 20:10 Uhr

Ein Teil dieser Antworten würde die Bevölkerung verunsichern.

Antworten Melden

Antworten Melden

Mit Texten, Vorlagen und in mehreren Schritten

ChatGPT kann jetzt auch Bilder: Konsistent und im Kontext

„photorealistic image of farmer’s market in toronto on a saturday in summer 2006“

Verfeinerung im Dialog

Nicht ohne Einschränkungen

Redet mit. Seid nett zueinander! Antworten abbrechen