ifun.de — Apple News seit 2001. 40 283 Artikel

Mit Texten, Vorlagen und in mehreren Schritten

ChatGPT kann jetzt auch Bilder: Konsistent und im Kontext

Artikel auf Mastodon teilen.
18 Kommentare 18

OpenAI erweitert sein Sprachmodell GPT-4o um eine neue Funktion zur direkten Bildgenerierung. Nutzer von ChatGPT können künftig Bilder auf Basis von Texteingaben erstellen lassen, ohne dafür ein externes Bildmodell aufrufen zu müssen.

Boba

„photorealistic image of farmer’s market in toronto on a saturday in summer 2006“

Die Bildfunktion ist damit zukünftig Teil desselben Modells, das auch Texte analysiert und generiert. Nach Angaben des Unternehmens ermöglicht dies die nahtlose Verknüpfung von Sprache und Bild.

Das System sei auf die gleichzeitige Verarbeitung von Texten und visuellen Informationen ausgelegt. Dadurch lasse sich die Qualität der generierten Bilder verbessern – insbesondere bei inhaltlich klar definierten Darstellungen wie Beschilderungen, technischen Skizzen, Infografiken oder beschrifteten Illustrationen. Auch bei der Positionierung und Gestaltung von Texten innerhalb eines Bildes zeige der neue Ansatz Fortschritte.

Verfeinerung im Dialog

Ein wesentliches Merkmal der neuen Lösung ist laut OpenAI die Möglichkeit, Bilder in mehreren Schritten zu verfeinern. Nutzer können ein erstes Bild erstellen und dann gezielt Anpassungen vornehmen, etwa Farben ändern oder Details ergänzen. Dabei bleibt der bisherige Verlauf des Gesprächs erhalten, sodass das Modell frühere Anweisungen in neuen Bildern berücksichtigen könne.

Openai Image Gen

Zum Start steht die Bildfunktion in GPT‑4o für Nutzerinnen und Nutzer mit Plus-, Pro-, Team- und sogar kostenfreiem ChatGPT-Zugang bereit. Auch eine Schnittstelle für Softwareentwickler ist vorgesehen.

Nicht ohne Einschränkungen

OpenAI weist darauf hin, dass bestimmte Schwächen weiterhin bestehen: Dazu gehören etwa Schwierigkeiten bei der Darstellung kleiner Textgrößen, bei komplexen Layouts oder bei mehrsprachigen Inhalten. Ebenso könne es zu Fehlern bei sehr langen Bildformaten kommen, etwa wenn Bildinhalte abgeschnitten würden. Zudem neige das Modell zu Halluzinationen, wenn es mit Eingaben mit sehr geringem Informationsanteil zu tun habe.

Um die Herkunft der Bilder transparent zu machen, würden sie mit digitalen Kennzeichnungen versehen. Das solle die Nachvollziehbarkeit verbessern und Missbrauch vorbeugen.

26. März 2025 um 06:46 Uhr von Nicolas Fehler gefunden?


    Zum Absenden des Formulars muss Google reCAPTCHA geladen werden.
    Google reCAPTCHA Datenschutzerklärung

    Google reCAPTCHA laden

    18 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.
  • Wenn das so „gut“ funktioniert wie Dall-E dann können sie es direkt lassen. Das ist fast auf Siri Niveau um es ganz hart zu formulieren.

    • Alles klar. Dann schalten wir die Funktion wieder ab. Danke für dein Feedback.

      • Bester Mann xD

      • Ne verbessern wäre auch eine Idee, aber stimmt, abschalten käme direkt danach. In aktueller Form ist der Dienst nicht zu gebrauchen. Gerne mal probieren und sich ein Bild generieren lassen, bei dem auf der einen Seite ein bestimmter Text stehen soll & auf der anderen Seite ein Gegenstand. Selbst nach 10-maligen Hinweis, dass der Text völlig falsch platziert ist und der Gegenstand falsch wird es nicht richtig. Wo da der Mehrwert drin liegen soll, außer einer kurze Spielerei.

      • Du redest von der alten Version. Hier im Artikel ist die Bildgenerierung doch wesentlich verbessert.

      • Lass uns doch erst mal selbst schauen wie es funktioniert als unnötige Kritik über etwas auszuüben die wir noch gar nicht selbst probieren konnten. Dass die aktuelle Bilderstellung murks ist, ist doch bekannt. Gerade wenn du irgendeinen Text da haben möchtest.

    • Na dann programmiere es doch einfach besser! Meckern ist billig

      • Das ist so ein *piep* Argument. Ich stelle nicht das größte KI Unternehmen der Welt. Darf man Apple hier sonst jemals wieder kritisieren, ich meine keiner der Apple hier je kritisiert hat kann es besser. Fußballer am besten auch nie wieder einordnen oder kritisieren, sind ja in der Regel trotzdem besser als jeder vorm Fernseher.

  • Letzter Satz ist wichtig. Man hätte auch noch die Energie erwähnen können die jetzt wohl zusätzlich noch aufgewendet werden muss um ein Foto herzustellen.

    • Oh ja. DAS wird gerne vergessen. Der ganze KI Kram verschwendet unglaubliche Energiemengen weltweit.

      • Das Bitcoin Thema noch viel mehr.

      • Da wird gar nichts verschwendet. Wenn ich die KI benötige, dann ist dem halt so. Ich arbeite jeden Tag produktiv damit. Es erleichtert meinen Job ungemein, ich schaffe mehr am Tag und muss auf Arbeit dennoch weniger schaffen als früher. Von Verschwendung kann also keine Rede sein. Geh mal bisschen mit der Zeit. Wer KI nicht nutzt der verpasst was.

      • wer entscheidet denn ob Energie verschwendet oder sinnvoll genutzt wird? Du?

      • Glückwünsche. Wieder eine Minderheit die sich erhebt.

        Es bleibt dennoch Fakt, dass KI Unmengen an Strom verbrennt

  • Habe eine Infografik erzeugen lassen, welche die Matrix-Multiplikation erklären soll. Die Grafik sah toll aus, allerdings waren alle Rechnungen und Erklärungen komplett falsch.

  • Von wegen konsistent! Es ist eine Qual, wenn man Verbesserungen nachschiebt. Das geht oft von vorn und ganz anders los.

  • Redet mit. Seid nett zueinander!

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

    ifun.de ist das dienstälteste europäische Onlineportal rund um Apples Lifestyle-Produkte.
    Wir informieren täglich über Aktuelles und Interessantes aus der Welt rund um iPad, iPod, Mac und sonstige Dinge, die uns gefallen.
    Insgesamt haben wir 40283 Artikel in den vergangenen 8558 Tagen veröffentlicht. Und es werden täglich mehr.
    ifun.de — Love it or leave it   ·   Copyright © 2025 aketo GmbH   ·   Impressum   ·   Cookie Einstellungen   ·   Datenschutz   ·   Safari-Push aketo GmbH Powered by SysEleven