Beeindruckende Video-Demonstration
Google meldet Durchbruch: Gemini 1.5 wertet ganze Bücher aus
Dass Google sein neues KI-Modell Gemini vorgestellt hat, ist noch keine drei Monate her. Jetzt hat der Nachfolger von Google Bard den nächsten Meilenstein genommen und trägt ab heute die Versionsnummer 1.5. Das klingt erst mal nach nicht viel.
Nach Angaben des Google-CEOs Sundar Pichai habe das neue KI-Modell jedoch nicht nur eine deutlich verbesserte Leistung zu bieten – der neue Umgang mit sehr langen Kontexten gleicht einem Durchbruch.
Gemini 1.5 kann nicht mehr nur einfache Fragen zu vorliegenden PDF-Dokumenten beantworten, sondern ganze Bücher innerhalb von Sekunden auswerten und problemlos Inhalte aus diesen extrahieren.
Welch beeindruckende Ergebnisse hier möglich sind, zeigt Google in einer kurzen Video-Demonstration unter Zuhilfenahme der 400 Seiten langen Funkverkehr-Mitschrift der Apollo 11-Mission.
Text, Video und Bilder gleichzeitig
Mit nur wenigen Sekunden Bedenkzeit kann das KI-Modell die gestellten Aufgaben problemlos lösen und ist sogar in der Lage, dies über verschiedene Modalitäten hinweg zu tun. Anders formuliert: das Modell wertet gleichzeitig Texte, Eingaben und Bildinhalte aus und nutzt diese Informationen dann, um im Auftrag des Anwenders aktiv zu werden.
Und damit nicht genug, laut Pichai ist das neue Modell in der Lage, hochkomplexe Verständnisfragen zu beantworten und kann zudem auch Videos auswerten. So kann Gemini 1.5, nach der Analyse eines 44-minütigen langen Buster Keaton Stummfilms, präzise verschiedene Handlungspunkte und Ereignisse herausarbeiten und erkennt sogar kleine Details im Film, die von regulären Zuschauern gerne übersehen werden.
Gemini 1.5 soll noch heute in einer Vorschau-Version für Entwickler angeboten werden. Allerdings benötigt Google noch eine Weile bis zur allgemeinen Verfügbarkeit. Diese und die Kosten für die Nutzung des Modells über Googles AI Studios, sollen zu einem späteren Zeitpunkt bekannt gegeben werden.
Toll, darf aber nur ein sehr kleiner Kreis nutzen. Ankündigungsweltmeister Google. Theoretisch hätten wir aufgeholt. Praktisch nutzt jeder Chat GPT.
Dazu kommt noch, dass Google bei anderen Demos nicht ganz so ehrlich war ;)
Gemini funktioniert recht gut, eben im kurztest ausprobiert. Alle fragen zuverlässig beantwortet
Wer kann Gemini denn nicht nutzen? Ich bin seit der Freigabe dabei, die Website läuft sauber
Das ging doch auch schon mit anderen KIs? (Also jetzt nicht Chat GPT)
Claude z.b.
Und Apples Siri ist seit Jahren immer noch in der Beta-Version *gefühlt*
Ist ja auch nur ein Sprachassistent. Keine Ki.
Siri ist ja auch ein Sprachassistent und keine KI, so wie man den Begriff heute zumindest verwendet.
Nicht mal das ist siri!
Nicht mal das ist Siri. Aber Apple beschäftigt sich auch zig Jahre damit, das Hey im Aktivierungswort Hey Siri zu löschen. Scheint für Apple echt eine Raketenwissenschaft zu sein. Ich erwarte da nicht mehr viel. Ganz ehrlich.
;-)
Siri wird eben nicht im Abo-Modell angeboten. Dementsprechend wird Siri auch nicht wirklich weiterentwickelt.
Wenn es mal Beta Stadium wäre. Dafür hinters überhaupt kein Stadium.
Ich lege meine ganze Hoffnung jetzt in iOS 18.
So schnell? Optimist. ;)
Und wie Ben schon sagte: Basisfunktionen ggf. kostenlos, brauchbar dann im Abo.
Bin zu alt irgendwie für sowas. Keine Ahnung was ich damit anfangen soll. ChatGPT mal ausprobiert aber ist jetzt nichts, was ich täglich brauchen würde.
Eben mal angetastet funktioniert recht gut, zumindest unter iOS.
Wahrscheinlich der erste wirklich gravierende Fehler in der Cook Ära. Oder kommt Apple doch noch mit etwas gleichwertigen um die Ecke?
Warten wir es mal ab. Apple arbeitet auch an AI und hat in den letzten Jahren viele AI Unternehmen aufgekauft.
Ich denke wir werden da dieses jahr noch etwas sehen von Apple
Die sind damit beschäftigt, das Hey aus ihrem Aktivierungswort Hey Siri zu entfernen. Scheint eine Raketenwissenschaft zu sein. Wann wurde das mal angekündigt?
Die Zeiten als man noch lesen musste und selbständig zusammenfassen um etwas zu lernen, werden wir sich mal schmerzlich vermissen.
So ist es! Lern bedeutet auch zu verstehen…
Ist tatsächlich die Frage was solche Entwicklungen – die wirklich beeindruckend sind – mit dem klassischen Lehren und Lernen machen werden.
Die Frage nach dem ‚warum soll ich dies/das tun/können..?‘ Wird sicherlich noch schwieriger zu beantworten sein.
Es bleibt spannend.
Bin gespannt, wann das „I“ in „KI“ tatsächlich mal seine Berechtigung hat!
Das mit dem I kann ich dir genau sagen: Es hatte immer schon seine Berechtigung, wenn es im Zusammenhang mit dem K verwendet wird. Das K bedeutet: Keine
;)
Interessant, dass die Entwickler bei Gemini anscheinend MacOS benutzen und nicht ChromeOS ;-)