Neues Text-zu-Video-Modell

Sora: ChatGPT kann jetzt auch Videos – und zwar photorealistisch

Fast kein Tag, an dem die treibenden KI-Unternehmen nicht einen signifikanten Durchbruch, ein neues Produkt oder eine Erweiterung der bisherigen Kapazitäten vermelden würden. Das nach Googles Ankündigung von Gemini 1.5 jüngste Beispiel: Die für den Chatbot ChatGPT verantwortlichen KI-Experten von OpenAI haben mit Sora nun ein erstes KI-Modell vorgestellt, das realistische Videosequenzen aus einfachen Texteingaben erstellen kann.

Noch steht Sora nicht zur allgemeinen Nutzung bereit, die auf der Projektseite veröffentlichten Beispielvideos laden jedoch schon zum Staunen ein. Die hier veröffentlichten Videosequenzen, die etwa eine Frau beim Abendspaziergang durch Tokio, einen Jeep während einer Offroad-Geländetour oder den Spaziergang durch eine Kunstgalerie zeigen, wurden alle lediglich durch Eingabe einfacher Textbeschreibungen generiert.

Die Texteingabe für den Abendspaziergang besteht dabei nur aus sechs Sätzen, die ihrerseits einmal den Hintergrund der Neon beleuchteten Großstadt beschreiben, kurz auf das Outfit der Frau mit schwarzen Schuhen, Lederjacke und rotem Kleid eingehen und anschließend noch den selbstbewussten Gang, die spiegelnde Straße und die im Hintergrund spazierenden Fußgänger skizzieren.

Der Prompt im Volltext:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

In einem ersten Schritt wird Sora nun ausgewählten Künstlern, Designern und Filmemachern zugänglich gemacht, die mit dem neuen Werkzeug experimentieren sollen. Gleichzeitig prüfen die Verantwortlichen von OpenAI das Modell auf Risiken und wollen eine missbräuchliche Anwendung ausschließen.

Wir empfehlen euch unbedingt einen Abstecher auf diese Demo-Seite und können technisch interessierten Lesern zudem dieses Hintergrundpapier ans Herz legen, das auf Aufbaustruktur und Erkenntnisse beim Bau des Videogenerators eingeht und zahlreiche Beispiele zeigt, die so gut wie nicht mehr von echten Kameraaufnahmen zu unterscheiden sind.

16. Feb. 2024 um 09:06 Uhr von Nicolas Fehler gefunden?

28 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

Rosario 16.02.2024, 09:11 Uhr

Ist noch nicht perfekt. Ihre linke Hand sieht komisch aus und wenn man genau hinschaut, schwebt sie über dem Boden.

#meckern auf hohem Niveau.

Antworten moderated

stinx 16.02.2024, 12:09 Uhr

Moonwalk im Vorwärtsgang

Antworten Melden

Antworten Melden
Faustus 16.02.2024, 14:41 Uhr

Bin auf die Pornos gespannt…

Antworten moderated

Antworten moderated

Dr. X 16.02.2024, 09:15 Uhr

Beeindruckend!
Man hätte noch eingeben können, welche Kamera sich in der Sonnenbrille spiegelt :)

Antworten Melden

Tom 16.02.2024, 09:18 Uhr

Achtet mal auf die Menschen im Hintergrund des ersten Videos. Beim Gehen vertauschen sich plötzlich die Beine, dafür muss man aber ganz genau hingucken. Es scheint als hätte die KI das Konzept der „zwei Beine“ des Menschen nur bis zu einem gewissen Grad verstanden…

Ben 16.02.2024, 14:33 Uhr

+1

Antworten moderated

Antworten moderated

Adrian 16.02.2024, 15:06 Uhr

Ja bei ihr selbst auch! Passiert ein paar mal aber alles in allem sehr sehr realistisch

fuchsioo 16.02.2024, 09:27 Uhr

Die Grafikleistung die gebraucht wird für dieses rendering…

Nebumuk 16.02.2024, 09:28 Uhr

……ist beeindruckend.

Antworten moderated

Antworten moderated
Mikesch8764 16.02.2024, 09:52 Uhr

Ist das wirklich rendering, oder ein zusammenstellen von bereits gefilmten existierenden Szenen?

Antworten Melden

Antworten Melden

John Applespeed 16.02.2024, 10:25 Uhr

Das wäre hier auch meine Frage gewesen !!!
Kann das jemand fundiert beantworten ?
gewappnet 16.02.2024, 14:53 Uhr

Das wird näher in dem oben verlinkten Hintergrundpapier von OpenAI erläutert. Es ist kein Rendering, sondern im Prinzip wie bei ChatGPT: Trainiertes wird in Einzelteile (Tokens) zerlegt, die dann als Transformer für die Generierung dienen.

Marc Aurel 16.02.2024, 09:28 Uhr

Besser photorealistisch als ich es -jemals- per GPT Pro und DallE geschafft habe.

Nebumuk 16.02.2024, 09:31 Uhr

Alles ja gut und schön aber entweder ich bin mittlerweile zu alt oder nicht die richtige Zielgruppe. Braucht das ein Normalbürger täglich ? ChatGPT usw. Habe mir das mal angeschaut und für toll befunden und dann war das Thema wieder für mich erledigt. Nichts was ich täglich irgendwie benutzen müsste.

Sharky 16.02.2024, 11:23 Uhr

Du bist halt nunmal nicht die gesamte Bevölkerung und zweitens sind auch Dinge wichtig die man nicht jeden Tag benutzt. Sei es auch nur einmal im Monat. Manch anderer benutzt das vielleicht jeden Tag.

Antworten Melden

Antworten Melden
jaja 16.02.2024, 11:38 Uhr

Nicht von sich auf andere schließen. Als Entwickler habe ich durchaus regelmäßig was mit ChatGPT zutun, kann sehr Hilfreich sein, programmieren muss man aber immer noch können. Andere wollen sich aber auch einfach nur eine Email, oder ein Formular generieren lassen. Es gibt sehr viele use cases.

Antworten Melden

Antworten Melden

calltime 16.02.2024, 09:57 Uhr

Damit werden Nachrichten immer unglaubwürdiger, z.B. Wahlkampf, Krieg- und Kriegserklärung, sprich Meinungsbeeinflussung im Fernsehen und wird dann bis zu YouTube,Ticktok und Co gehen. Am Anfang wird es nur von Regierungen und Geheimdiensten ausgenutzt und später auch von so manchen privaten Mediengestalter um seine Clickzahlen zu steigern.
Und wie will man dann unterscheiden „Was ist Wahrheit und was ist Lüge“

Jack 16.02.2024, 10:25 Uhr

Exakt….man hat keine Möglichkeit mehr zu unterscheiden….wahr oder unwahr!
ERSCHRECKEND!

Antworten Melden

Antworten Melden
JochenN 16.02.2024, 12:59 Uhr

Das größte Problem sehe ich darin, dass echte (!) Videos, die Straftaten oder Skandale zeigen, künftig immer und eher unwiderlegbar in Frage gestellt werden. Vor Gericht dürfte sowas kaum noch als Beweis nutzbar sein.

Wenn also Donald Trump mal wieder bei etwas erwischt wird, was ihn den Kopf kosten könnte, kann er einfach behaupten, das Video wäre ein Kunstprodukt. Und seine Anhänger/Jünger glauben ihm das noch mehr, als sie es heute schon viel zu oft tun.

Antworten Melden

Antworten Melden

Dr. X 16.02.2024, 14:42 Uhr

+1

FraggDieb 16.02.2024, 10:03 Uhr

Hammer, auch wenn das laufen der Dame die immersion ein wenig zerstört.

John Applespeed 16.02.2024, 10:21 Uhr

Jetzt wird’s wirklich ernst und echt beängstigend.
Besonders auch: wenn man sieht mit welcher Geschwindigkeit sich das gerade entwickelt, man kommt ja gar nicht hinterher

svc 16.02.2024, 10:32 Uhr

Es ist ganz „einfach“!
Du triffst bewusst die Entscheidung wie viele Informationen du aufnehmen möchtest.
Du kannst zum Beispiel damit anfangen deinen Nachrichteninput auf bestimmte, von dir ausgewählte Quellen zu beschränken und dir auch mehr Zeit in einem Umfeld gönnen in dem du nicht pausenlos mit Informationen überflutet wirst.
Auf jeden Fall sollten wir alle unseren Datenkonsum überprüfen und vor allem strenger limitieren.

Antworten Melden

Antworten Melden

Pukeko 16.02.2024, 10:50 Uhr

@svc Exakt! Diese ganze Debatte über Fake News und Hassrede bezieht sich nämlich fast ausschließlich auf soziale Netzwerke. Würden die Leute einfach die Finger von diesen lassen und nicht pausenlos durch endlose Timelines scrollen, wären die Gefahren nämlich um einiges geringer. Jedenfalls findet man absichtliche Falschnachrichten und Hassrede sehr viel seltener in klassischen Nachrichtenquellen, mal abgesehen von Fox News vielleicht.

HAL9000 16.02.2024, 13:36 Uhr

Erschreckend und genial zugleich was da jetzt bereits geht. Und das ist jetzt die schlechteste Version von allen die da noch kommen werden.

Supi 17.02.2024, 03:26 Uhr

Man gibt irgendwann einfach ein Drehbuch als Prompt ein und – voilà! – fertig ist ein Film. Oder ein etwas anderer …
So kann man sich seine Wunschfilme selber basteln, indem man zufällig erzeugte Überraschungen einbauen lässt.

komacrew 18.02.2024, 03:27 Uhr

Weiß was ich falsch mache aber alle bisherigen Grafik KIs haben nichtmals ansatzweise das geliefert was in den Vorschaubildern zur Schau gestellt wird. Von daher bin ichmehr als skeptisch wie dass dann mit Videos funktionieren soll. Die Vorschau Videos sind ja nett gemacht, aber wenn in der Realität dann nichts so funktioniert ist das doch Käse

Nanamusk 19.02.2024, 11:47 Uhr

Was ist schon real? Gibt es die Realität wirklich? Es gibt Wissenschaftler, die sich mit dieser Frage beschäftigen

Neues Text-zu-Video-Modell

Sora: ChatGPT kann jetzt auch Videos – und zwar photorealistisch

Redet mit. Seid nett zueinander! Antworten abbrechen