Mit Texten, Vorlagen und in mehreren Schritten
ChatGPT kann jetzt auch Bilder: Konsistent und im Kontext
OpenAI erweitert sein Sprachmodell GPT-4o um eine neue Funktion zur direkten Bildgenerierung. Nutzer von ChatGPT können künftig Bilder auf Basis von Texteingaben erstellen lassen, ohne dafür ein externes Bildmodell aufrufen zu müssen.
„photorealistic image of farmer’s market in toronto on a saturday in summer 2006“
Die Bildfunktion ist damit zukünftig Teil desselben Modells, das auch Texte analysiert und generiert. Nach Angaben des Unternehmens ermöglicht dies die nahtlose Verknüpfung von Sprache und Bild.
Das System sei auf die gleichzeitige Verarbeitung von Texten und visuellen Informationen ausgelegt. Dadurch lasse sich die Qualität der generierten Bilder verbessern – insbesondere bei inhaltlich klar definierten Darstellungen wie Beschilderungen, technischen Skizzen, Infografiken oder beschrifteten Illustrationen. Auch bei der Positionierung und Gestaltung von Texten innerhalb eines Bildes zeige der neue Ansatz Fortschritte.
Verfeinerung im Dialog
Ein wesentliches Merkmal der neuen Lösung ist laut OpenAI die Möglichkeit, Bilder in mehreren Schritten zu verfeinern. Nutzer können ein erstes Bild erstellen und dann gezielt Anpassungen vornehmen, etwa Farben ändern oder Details ergänzen. Dabei bleibt der bisherige Verlauf des Gesprächs erhalten, sodass das Modell frühere Anweisungen in neuen Bildern berücksichtigen könne.
Zum Start steht die Bildfunktion in GPT‑4o für Nutzerinnen und Nutzer mit Plus-, Pro-, Team- und sogar kostenfreiem ChatGPT-Zugang bereit. Auch eine Schnittstelle für Softwareentwickler ist vorgesehen.
Nicht ohne Einschränkungen
OpenAI weist darauf hin, dass bestimmte Schwächen weiterhin bestehen: Dazu gehören etwa Schwierigkeiten bei der Darstellung kleiner Textgrößen, bei komplexen Layouts oder bei mehrsprachigen Inhalten. Ebenso könne es zu Fehlern bei sehr langen Bildformaten kommen, etwa wenn Bildinhalte abgeschnitten würden. Zudem neige das Modell zu Halluzinationen, wenn es mit Eingaben mit sehr geringem Informationsanteil zu tun habe.
Um die Herkunft der Bilder transparent zu machen, würden sie mit digitalen Kennzeichnungen versehen. Das solle die Nachvollziehbarkeit verbessern und Missbrauch vorbeugen.
Wenn das so „gut“ funktioniert wie Dall-E dann können sie es direkt lassen. Das ist fast auf Siri Niveau um es ganz hart zu formulieren.
Alles klar. Dann schalten wir die Funktion wieder ab. Danke für dein Feedback.
Bester Mann xD
Ne verbessern wäre auch eine Idee, aber stimmt, abschalten käme direkt danach. In aktueller Form ist der Dienst nicht zu gebrauchen. Gerne mal probieren und sich ein Bild generieren lassen, bei dem auf der einen Seite ein bestimmter Text stehen soll & auf der anderen Seite ein Gegenstand. Selbst nach 10-maligen Hinweis, dass der Text völlig falsch platziert ist und der Gegenstand falsch wird es nicht richtig. Wo da der Mehrwert drin liegen soll, außer einer kurze Spielerei.
Du redest von der alten Version. Hier im Artikel ist die Bildgenerierung doch wesentlich verbessert.
Lass uns doch erst mal selbst schauen wie es funktioniert als unnötige Kritik über etwas auszuüben die wir noch gar nicht selbst probieren konnten. Dass die aktuelle Bilderstellung murks ist, ist doch bekannt. Gerade wenn du irgendeinen Text da haben möchtest.
Na dann programmiere es doch einfach besser! Meckern ist billig
Das ist so ein *piep* Argument. Ich stelle nicht das größte KI Unternehmen der Welt. Darf man Apple hier sonst jemals wieder kritisieren, ich meine keiner der Apple hier je kritisiert hat kann es besser. Fußballer am besten auch nie wieder einordnen oder kritisieren, sind ja in der Regel trotzdem besser als jeder vorm Fernseher.
Letzter Satz ist wichtig. Man hätte auch noch die Energie erwähnen können die jetzt wohl zusätzlich noch aufgewendet werden muss um ein Foto herzustellen.
Oh ja. DAS wird gerne vergessen. Der ganze KI Kram verschwendet unglaubliche Energiemengen weltweit.
Das Bitcoin Thema noch viel mehr.
Da wird gar nichts verschwendet. Wenn ich die KI benötige, dann ist dem halt so. Ich arbeite jeden Tag produktiv damit. Es erleichtert meinen Job ungemein, ich schaffe mehr am Tag und muss auf Arbeit dennoch weniger schaffen als früher. Von Verschwendung kann also keine Rede sein. Geh mal bisschen mit der Zeit. Wer KI nicht nutzt der verpasst was.
wer entscheidet denn ob Energie verschwendet oder sinnvoll genutzt wird? Du?
Glückwünsche. Wieder eine Minderheit die sich erhebt.
Es bleibt dennoch Fakt, dass KI Unmengen an Strom verbrennt
Habe eine Infografik erzeugen lassen, welche die Matrix-Multiplikation erklären soll. Die Grafik sah toll aus, allerdings waren alle Rechnungen und Erklärungen komplett falsch.
Von wegen konsistent! Es ist eine Qual, wenn man Verbesserungen nachschiebt. Das geht oft von vorn und ganz anders los.
Ab wann kommt das? Unverzüglich?
Das tritt nach meiner Kenntnis … ist das sofort, unverzüglich.