"Mathematische Logik" problematisch
Kein logisches Denken: Apple zweifelt an KI-Fähigkeiten
Ein Team aus sechs bei Apple angestellten KI-Forschern hat in einem neuen Bericht die Fähigkeiten großer KI-Sprachmodelle, sogenannter LLMs, zur mathematischen Problemlösung unter die Lupe genommen.
Im Fokus der Untersuchung stand dabei die Resultate gängiger Testverfahren wie dem GSM8K-Benchmark, dessen Aussagekraft die Forscher infrage stellen. Der GSM8K-Benchmark wird häufig genutzt, um die mathematischen Fähigkeiten moderner KI-Modelle anhand eines Fragenkataloges auf Grundschulniveau zu bewerten.
Obwohl sich die Leistung der untersuchten Modelle in den letzten Jahren kontinuierlich verbessert hat, bleibt unklar, ob dies auf echte Fortschritte in der mathematischen Logik zurückzuführen ist.
„Mathematische Logik“ problematisch
Zudem stellten Apples Forscher fest, dass die Leistung der Modelle mit zunehmender Komplexität der Aufgaben deutlich abnimmt. Besonders auffällig sei, dass schon das Hinzufügen einer zusätzlichen Klausel, die für die Lösung irrelevant ist, zu einem Leistungseinbruch von bis zu 65 Prozent führen kann.
Dies deute darauf hin, dass die Modelle keiner echten logischen Argumentation folgen, sondern vielmehr Muster und Lösungswege nachahmen, die sie während ihres Trainings gelernt haben.
Das Paper mit dem Titel „GSM-Symbolic: Understanding the Limitations of
Mathematical Reasoning in Large Language Models“ könnt ihr bei Interesse hier aus dem Netz laden:
- PDF-Download: Apple Paper zur GSM Symbolic
Neuer Benchmark zur besseren Bewertung
Die Apple-Forscher haben einen neuen Benchmark namens „GSM-Symbolic“ entwickelt. Dieser soll eine größere Vielfalt an Fragen und präzisere Bewertungsergebnisse ermöglichen.
Die Untersuchung zeigt, dass die getesteten Modelle sehr unterschiedlich auf leichte Veränderungen in den Aufgabenstellungen reagieren. Alle Modelle zeigten schlechtere Ergebnisse, sobald inhaltlich gleiche Fragen nur in ihren Zahlenwerten verändert wurden. Dies legt nahe, dass die mathematische Logik der Modelle bei minimalen Anpassungen brüchig wird.
Das hat auch schon vor ein paar Monaten ein anderes Forscherteam feststellen können. Das liest sich auch ziemlich übereinstimmend.
Und was ist nun dein Lösungsansatz?
Warum sollte er dafür einen Lösungsansatz haben??
Apple hat vermutlich aus diesen und anderen Gründen nicht weiter in OpenAI investiert. Eventuell sucht Apple nun andere Wege, um KI ihren Ansprüchen nach zu entwickeln. Siri braucht dringend ein Update und ChatGPT ist nur ein Zwischenschritt. Wobei Apple auch andere Modelle integrieren möchte. Aleph Alpha hat aufgegeben, weil es finanziell und dadurch auch zeitlich nicht möglich ist, aufzuholen. Apple hat vermutlich das Geld. Mal sehen welchen Ansatz sie nun gehen.
„Lösungsansatz“: KI ist viel mehr Schein als Sein!
Das ist aber KEIN „Lösungsansatz“…!!! XD
Aber das neue Modell o1 ist bereits im preview richtig gut in Mathematik. Bislang konnte ich keinen Rechenfehler feststellen können
Ich antworte mal stellvertretend – Entschuldigung:
It is not the way to go…
Das mit dem „genuine logical reasoning“ ist für mich der Hauptpunkt.
Etwas _sehr_ weit hergeholt, aber: Nur weil Leute beim Selfie machen von Klippen fallen, gehört das nicht zum Selfie machen. Wir wissen, das das ungesund ist, eine KI stellt einfach einen Zusammenhang her – also kann das für die KI passen, je mehr Leute das tun.
Ganz anderes Thema: Die Smartphone-Welt bastelt seit Jahren an Falt-Phones rum, kann man inzwischen verwenden, ist nicht das Gelbe vom Ei. Apple hat nix im Angebot. Da man bei Apple nicht auf den Kopf gefallen ist, könnte die Antwort auch hier passen.
Generalantwort für Einwände:
…Ja, die machen auch manchmal Fehler da bei Apple.
so isses
Daher ist aus meiner Sicht, die Bezeichnung „Künstliche Intelligenz“ falsch. Und wenn man sich die Ergebnisse kritisch betrachtet, dann erkennt man schnell die Schwächen. Es ist ein komfortableres Google, nicht mehr und nicht weniger.
Du gehörst bestimmt auch zu der Sorte, die das Handy für sinnlos und das Internet für eine Spinnerei gehalten haben
Was für ein unnötiger und unpassender Kommentar.
@Imram.
Richtig unnötig
Er hat doch recht. Wenn ich etwas abfrage und er bei Problemen damit anfängt zu phantasieren und falsche Antworten zu geben, dann ist dass alles andere als intelligent
So wie es von Vielen gebraucht wird ist es auch nur Spinnerei – und ein bisschen Zeitvertreib
Och Imran!
Imran…
Hola, da ist wohl jemand übermütig…
Ist menschliche Intelligenz da anders?
Hat ein Mensch noch nie eine falsche Information gegeben oder war überfordert?
Wie funktionieren überhaupt menschliche Intelligenz, das Gedächtnis und das Gehirn?
Merkste?
Es geht hauptsächlich um das Reasoning. Und da sind Menschen bereits wenn sie in der Grundschule gehen klar überlegen.
Menschliche Intelligenz beruht auf der Fähigkeit des Gehirns, Informationen zu verarbeiten, zu lernen, Probleme zu lösen, zu planen und sich an veränderte Umstände anzupassen. Sie umfasst kognitive Fähigkeiten wie Wahrnehmung, Gedächtnis, logisches Denken und Kreativität, die durch neuronale Netzwerke im Gehirn unterstützt werden. Diese Netzwerke kommunizieren über elektrische Impulse und chemische Signale. Intelligenz ist das Ergebnis von Genetik, Erfahrung und Umweltfaktoren.
Viele Grüße von ChatGPT
Wenn Du Dir ansehen würdest, was KI in den Unternehmen verändert hat, würdest Du so etwas nicht schreiben.
Die Rattenfänger der KI werden weiterhin Erfolg haben – durch sachliche Nachrichten lässt sich doch die Masse nicht beeinflussen- und dann ist der geschilderte Sachverhalt nur ein winzig kleiner Bereich der trotz KI nicht „besser“ wird.
Aber das kann doch gar nicht sein: alle und wirklich alle in jeder erdenklichen Techniksparte betreiben inzwischen erfolgreich eine KI – und Apple kommen Zweifel?
Ts, ts, Sachen gibts
In erster Linie wird doch nur Marketing betrieben, um Geld einzusammeln. Mitte der 90er startete der Multimedia-Hype, die Ergebnisse waren bescheiden, die Firmen maßlos überbewertet. Als die Blase platze, schlug Multimedia auf dem harten Boden der Realität auf und das Geld war seltsam verloren gegangen. Das Risikokapital war in der Zwischenzeit in alle möglichen Kanäle abgewandert ohne nennenswerten Gegenwert.
Das beginnt schon damit, dass ein LLM nicht wirklich „lesen“ kann, sondern Wörter, einzelne Buchstaben, Zahlen und sonstige Zeichen als Token erfasst. Wer mal ein Large Language Modell zum Stolpern bringen will, fragt es einfach nach der Anzahl der Buchstaben eines Wortes. Die „KI“ kann das nicht wissen, weil das Wort für sie lediglich eine kurze Nummernfolge darstellt. Da sie dennoch eine Antwort ausgeben muss, gibt sie einfach einen eher zufällig gewählten Wert an. In diesem Zusammenhang ist auffällig, dass die meisten Modelle die Tendenz aufweisen, eine immer höhere Zahl zu nennen, wenn man sie mehrfach auffordert es noch einmal mit dem selben Wort zu versuchen. Das deckt sich etwas mit dem beschriebenen Problem.
Stimmt nicht, eben mit ChatGPT ausprobiert. Kann wunderbar Buchstaben zählen.
Und ist zu blöd die korrekte Uhrzeit in meiner Stadt zu ermitteln. Und nein, kein Zeitzonen-Problem, es liegt mit einem total krummen Wert total daneben.
In Berlin, it’s currently 3:12 PM on Tuesday, October 15, 2024 .
Hab’s grad ausprobiert. ChatGPT liegt häufig falsch. Aber selbst wenn er richtig liegt und du ihm „Falsch“ antwortest, korrigiert er sich mit einem falschen Ergebnis. Bei wiederholter Frage kommen unterschiedliche Ergebnisse.
Wieviele Buchstaben hat das Wort „Buchstaben“?
Das Wort „Buchstaben“ hat 10 Buchstaben.
Scheint tatsächlich eine riiiiesen Herausforderung zu sein, hast recht
Überhaupt nicht. Ich habe es mehrfach versucht und es kommen immer die richtigen Antworten. Bei Nachfrage schreiben die Modelle sogar noch eine laufende Nummer vor jeden Buchstaben.
Kann ich nicht bestätigen. Ich habe 10 Versuche hinsichtlich Buchstabenzählen gemacht und es waren alle richtig. Da stolpert gar nix
Blödsinn
Vielleicht hätte ich anmerken sollen, dass z.B. ChatGPT bereits ein Update erhalten hat, wodurch dieses kleine Problem „umgangen“ wird. Mea culpa.
Um genauer zu sein: ChatGPT kann seit etwa einem Monat Buchstaben zählen https://youtube.com/watch?v=1tX5aea0La4
Dennoch beschreibt das ganz gut eines der Probleme: Die „AI“ „denkt“ nicht, sondern agiert nach Mustern und Wahrscheinlichkeiten. Und scheitert, wenn für ein neues Problem keine entsprechende (Ausnahme-)Routine vorgegeben wurde.
Sind wir aber nicht auch probabilistische Systeme, die ständig nach Mustern Ausschsu halten? In einer Vorlesung über KI wurde lange darüber diskutiert, inwiefern wir Stochastische Papageien sind.
Zumindest kann chatgpt nicht zählen wie viele r das wort Erdbeere enthält. Kommt immer auf 3
Zähle wieviele „r“ das Wort Erdbeere enthält
Das Wort „Erdbeere“ enthält zwei „r“.
Ich tippe hier auch stark auf Fehler 30
Schonmal dran gedacht, dass er vielleicht eine lokale Installation nutzt, die älter als vier Wochen ist? Geeze.
Ja, macht Sinn… NICHT
Kommt da noch was gehaltvolles, oder hat das einfach nur deine Auffassungsgabe überstiegen? O.o
Es ist durchaus angebracht, dem KI-Hype ein wenig die Luft rauszulassen. Ab einer bestimmten Stelle beginnen KIs zu faseln, zu halluzinieren. Letztendlich sind KIs nur aufgemotzte ELIZA-Programme. Sie täuschen Kommunikationsfähigkeit nur vor.
Genau, nicht das Apple Kunden noch auf die Idee kommen könnten, das Apple da einen Trend verpennt hat!
Oder so ziemlich jedes deutsche Unternehmen. Höhöhö
Naja Apple macht viel in Hard und Software in Gesamtpaketen und noch nie ist Apple sofort auf irgendnen Hype gesprungen!
Naja, ich durfte neulich unfreiwillig den KI-basierten Support der DHL-Packstationen in der App testen. ELIZA in den 80ern auf nem Z80 war intelligenter…
Solche ML-Lösungen sind dort wirklich gut, wo es um effiziente Mustererkennung mit hoher Geschwindigkeit geht (z.Bsp. in medizinischen Bereichen, wo bildgebende Verfahren ausgewertet werden müssen). Ansonsten ist da manchmal von Intelligenz nicht wirklich was zu merken.
Korrekt. Die Telekom verwendet jetzt ebenfalls einen ähnlichen Chatbot, der einfach falsche Antworten liefert. Weist man ihn draufhin, entschuldigt er sich und liefert noch falschere Ergebnisse.
Da wurde IMHO kein Trend „verpennt“ – ich bin eher enttäuscht, dass Apple aus irgendeinem Grund meint da jetzt auch aufspringen zu müssen.
Ja, Bilder erzeugen und editieren. Das klappt und wenn Apple das dann lokal ohne Cloud macht, alles fein (da sind andere auch schon)
Aber diese LLM Geschichten … oh weh. Ja natürlich gibt es Menschen die schon Sachen damit gemacht haben (Code schreiben lassen etc.) – ich behaupte aber, dass mindestens genauso viele gibt bei denen das nicht zufriedenstellend funktioniert hat (falscher Code voller Fehler, an der Fragestellung vorbei, falsche Zusammenfassungen anstatt zu schreiben „mir fehlen die Daten“ usw.)
Nun möchte Apple mit LLM wirklich Kontextbezogen und App übergreifend Dinge tun?! Soweit ich LLM verstehe kann das nur scheitern oder maximal ein gelenktes Glücksspiel werden.
Der Punkt ist nicht, dass mit diesen werkzeugen gar nichts möglich wäre. Der Punkt ist doch aber, dass es weder vorhersehbar noch zuverlässig ist.
Na wir werden sehen.
Kann meinen Vorrednern nur anschließen und seh ich auch genau so. Auch bei ChatGPT & Co. Es steht überall KI drauf, weil es aus Marketingsicht modern ist und geklickt und verkauft wird. Beispiel: Wetterapp nun mit KI. Aha. Aber die Wettervorhersage funktionierte auch schon vor 50 Jahren. War die dann schon immer intelligent? Oder macht die Wetterapp nicht einfach genau das, was sie bisher auch gemacht hat, nämlich Hoch-/Tiefgebiete beobachten und daraufhin berechnen, wo die Zelle hinwandert? Was heißt wirklich „intelligent“? In meinen Augen reicht es nicht, Schlüsse zu ziehen, denn das lässt sich sehr leicht umsetzen und mal ehrlich: 99% der angeblichen KIs da draußen folgen einfach nur einem Algorithmus, den sich der Programmierer ausgedacht hat, sprich sind hardgecoded und haben mit echter „Intelligenz“ überhaupt nichts zu tun. Aber es ist halt modern, überall „KI“ drauf zu schreiben – egal obs stimmt oder nicht. Interessant wird es meiner Meinung nach erst, wenn Neues geschaffen wird, noch nie Dagewesenes. Und selbst hier ist es schwierig, denn letztendlich formuliert ChatGPT auch nur bereits recherchierte Artikel aus der eigenen Datenbank um. Ist das dann „intelligent“? Nunja, ich weiß ja auch nicht…
bei allen KI fehlt mir die Möglichkeit, im Laufe der Zeit Neues zu lernen. Selbständige festzustellen, dass etwas falsch oder nur nahezu richtig war und es selbständig zu korrigieren.
das ist Intelligenz
Moment, Apple hängt doch nicht etwa so weit hinterher das denen das nicht vorher klar war.
Der Versuch ist schon ein Armutszeugnis und klingt nach, ok wir probieren dieses KI auch mal aus.
Ich geh doch auch nicht zum Bäcker, bestell ne Windmühle und wundere mich das die nicht mahlen kann.
Apple soll die KI mal gegen die ifun-Kommentarsektion antreten lassen. Da schlägt die Maschine sicherlich den Menschen ;)
Solange es nicht mal klappt, ordentlich verständliche normale Telefonate mit einem nagelneuen iPhone zu führen. Oder simple Spracheingaben immer und immer und wieder falsch verstanden und nichts im Ansatz dazu gelernt wird, sehe ich hier von Intelligenz wirklich überhaupt keine Spur!
Und ich zweifle An Apple…..