"Mathematische Logik" problematisch

Kein logisches Denken: Apple zweifelt an KI-Fähigkeiten

Ein Team aus sechs bei Apple angestellten KI-Forschern hat in einem neuen Bericht die Fähigkeiten großer KI-Sprachmodelle, sogenannter LLMs, zur mathematischen Problemlösung unter die Lupe genommen.

Im Fokus der Untersuchung stand dabei die Resultate gängiger Testverfahren wie dem GSM8K-Benchmark, dessen Aussagekraft die Forscher infrage stellen. Der GSM8K-Benchmark wird häufig genutzt, um die mathematischen Fähigkeiten moderner KI-Modelle anhand eines Fragenkataloges auf Grundschulniveau zu bewerten.

Obwohl sich die Leistung der untersuchten Modelle in den letzten Jahren kontinuierlich verbessert hat, bleibt unklar, ob dies auf echte Fortschritte in der mathematischen Logik zurückzuführen ist.

„Mathematische Logik“ problematisch

Zudem stellten Apples Forscher fest, dass die Leistung der Modelle mit zunehmender Komplexität der Aufgaben deutlich abnimmt. Besonders auffällig sei, dass schon das Hinzufügen einer zusätzlichen Klausel, die für die Lösung irrelevant ist, zu einem Leistungseinbruch von bis zu 65 Prozent führen kann.

Dies deute darauf hin, dass die Modelle keiner echten logischen Argumentation folgen, sondern vielmehr Muster und Lösungswege nachahmen, die sie während ihres Trainings gelernt haben.

Das Paper mit dem Titel „GSM-Symbolic: Understanding the Limitations of
Mathematical Reasoning in Large Language Models“ könnt ihr bei Interesse hier aus dem Netz laden:

PDF-Download: Apple Paper zur GSM Symbolic

Neuer Benchmark zur besseren Bewertung

Die Apple-Forscher haben einen neuen Benchmark namens „GSM-Symbolic“ entwickelt. Dieser soll eine größere Vielfalt an Fragen und präzisere Bewertungsergebnisse ermöglichen.

Die Untersuchung zeigt, dass die getesteten Modelle sehr unterschiedlich auf leichte Veränderungen in den Aufgabenstellungen reagieren. Alle Modelle zeigten schlechtere Ergebnisse, sobald inhaltlich gleiche Fragen nur in ihren Zahlenwerten verändert wurden. Dies legt nahe, dass die mathematische Logik der Modelle bei minimalen Anpassungen brüchig wird.

15. Okt. 2024 um 12:34 Uhr von Nicolas Fehler gefunden?

KI Künstliche Intelligenz

55 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

hans 15.10.2024, 12:53 Uhr

Das hat auch schon vor ein paar Monaten ein anderes Forscherteam feststellen können. Das liest sich auch ziemlich übereinstimmend.

Antworten Melden

googmann 15.10.2024, 13:17 Uhr

Und was ist nun dein Lösungsansatz?

Antworten Melden

Antworten Melden

Rechtsmaus 15.10.2024, 13:37 Uhr

Warum sollte er dafür einen Lösungsansatz haben??
Mitch 15.10.2024, 15:13 Uhr

Apple hat vermutlich aus diesen und anderen Gründen nicht weiter in OpenAI investiert. Eventuell sucht Apple nun andere Wege, um KI ihren Ansprüchen nach zu entwickeln. Siri braucht dringend ein Update und ChatGPT ist nur ein Zwischenschritt. Wobei Apple auch andere Modelle integrieren möchte. Aleph Alpha hat aufgegeben, weil es finanziell und dadurch auch zeitlich nicht möglich ist, aufzuholen. Apple hat vermutlich das Geld. Mal sehen welchen Ansatz sie nun gehen.
khw 15.10.2024, 15:14 Uhr

„Lösungsansatz“: KI ist viel mehr Schein als Sein!
TimApple 15.10.2024, 15:56 Uhr

Das ist aber KEIN „Lösungsansatz“…!!! XD
garth 15.10.2024, 19:37 Uhr

Aber das neue Modell o1 ist bereits im preview richtig gut in Mathematik. Bislang konnte ich keinen Rechenfehler feststellen können
Markus 15.10.2024, 20:05 Uhr

Ich antworte mal stellvertretend – Entschuldigung:

It is not the way to go…

Das mit dem „genuine logical reasoning“ ist für mich der Hauptpunkt.
Etwas _sehr_ weit hergeholt, aber: Nur weil Leute beim Selfie machen von Klippen fallen, gehört das nicht zum Selfie machen. Wir wissen, das das ungesund ist, eine KI stellt einfach einen Zusammenhang her – also kann das für die KI passen, je mehr Leute das tun.

Ganz anderes Thema: Die Smartphone-Welt bastelt seit Jahren an Falt-Phones rum, kann man inzwischen verwenden, ist nicht das Gelbe vom Ei. Apple hat nix im Angebot. Da man bei Apple nicht auf den Kopf gefallen ist, könnte die Antwort auch hier passen.

Generalantwort für Einwände:
…Ja, die machen auch manchmal Fehler da bei Apple.
Mitch 15.10.2024, 20:55 Uhr

so isses

Jürgen T. 15.10.2024, 12:55 Uhr

Daher ist aus meiner Sicht, die Bezeichnung „Künstliche Intelligenz“ falsch. Und wenn man sich die Ergebnisse kritisch betrachtet, dann erkennt man schnell die Schwächen. Es ist ein komfortableres Google, nicht mehr und nicht weniger.

Imran 15.10.2024, 12:58 Uhr

Du gehörst bestimmt auch zu der Sorte, die das Handy für sinnlos und das Internet für eine Spinnerei gehalten haben

Antworten Melden

Antworten Melden

DAN 15.10.2024, 12:59 Uhr

Was für ein unnötiger und unpassender Kommentar.
smurfingPIXEL 15.10.2024, 13:06 Uhr

@Imram.
Richtig unnötig
Loepi 15.10.2024, 13:09 Uhr

Er hat doch recht. Wenn ich etwas abfrage und er bei Problemen damit anfängt zu phantasieren und falsche Antworten zu geben, dann ist dass alles andere als intelligent
Wrzlbrnft 15.10.2024, 13:10 Uhr

So wie es von Vielen gebraucht wird ist es auch nur Spinnerei – und ein bisschen Zeitvertreib
Felix 15.10.2024, 13:11 Uhr

Och Imran!
Felix 15.10.2024, 13:13 Uhr

Imran…
Jürgen T. 15.10.2024, 15:03 Uhr

Hola, da ist wohl jemand übermütig…

cwittmann 15.10.2024, 14:22 Uhr

Ist menschliche Intelligenz da anders?
Hat ein Mensch noch nie eine falsche Information gegeben oder war überfordert?
Wie funktionieren überhaupt menschliche Intelligenz, das Gedächtnis und das Gehirn?

Merkste?

Antworten Melden

Antworten Melden

hans 15.10.2024, 14:31 Uhr

Es geht hauptsächlich um das Reasoning. Und da sind Menschen bereits wenn sie in der Grundschule gehen klar überlegen.
Daniel 15.10.2024, 14:35 Uhr

Menschliche Intelligenz beruht auf der Fähigkeit des Gehirns, Informationen zu verarbeiten, zu lernen, Probleme zu lösen, zu planen und sich an veränderte Umstände anzupassen. Sie umfasst kognitive Fähigkeiten wie Wahrnehmung, Gedächtnis, logisches Denken und Kreativität, die durch neuronale Netzwerke im Gehirn unterstützt werden. Diese Netzwerke kommunizieren über elektrische Impulse und chemische Signale. Intelligenz ist das Ergebnis von Genetik, Erfahrung und Umweltfaktoren.
Viele Grüße von ChatGPT

Sami Negm-Awad 15.10.2024, 21:48 Uhr

Wenn Du Dir ansehen würdest, was KI in den Unternehmen verändert hat, würdest Du so etwas nicht schreiben.

Antworten Melden

Antworten Melden

Wrzlbrnft 15.10.2024, 13:08 Uhr

Die Rattenfänger der KI werden weiterhin Erfolg haben – durch sachliche Nachrichten lässt sich doch die Masse nicht beeinflussen- und dann ist der geschilderte Sachverhalt nur ein winzig kleiner Bereich der trotz KI nicht „besser“ wird.

vegiwhopper 15.10.2024, 13:08 Uhr

Aber das kann doch gar nicht sein: alle und wirklich alle in jeder erdenklichen Techniksparte betreiben inzwischen erfolgreich eine KI – und Apple kommen Zweifel?
Ts, ts, Sachen gibts

Alina 15.10.2024, 14:08 Uhr

In erster Linie wird doch nur Marketing betrieben, um Geld einzusammeln. Mitte der 90er startete der Multimedia-Hype, die Ergebnisse waren bescheiden, die Firmen maßlos überbewertet. Als die Blase platze, schlug Multimedia auf dem harten Boden der Realität auf und das Geld war seltsam verloren gegangen. Das Risikokapital war in der Zwischenzeit in alle möglichen Kanäle abgewandert ohne nennenswerten Gegenwert.

Antworten Melden

Antworten Melden

Pazuzu 15.10.2024, 13:10 Uhr

Das beginnt schon damit, dass ein LLM nicht wirklich „lesen“ kann, sondern Wörter, einzelne Buchstaben, Zahlen und sonstige Zeichen als Token erfasst. Wer mal ein Large Language Modell zum Stolpern bringen will, fragt es einfach nach der Anzahl der Buchstaben eines Wortes. Die „KI“ kann das nicht wissen, weil das Wort für sie lediglich eine kurze Nummernfolge darstellt. Da sie dennoch eine Antwort ausgeben muss, gibt sie einfach einen eher zufällig gewählten Wert an. In diesem Zusammenhang ist auffällig, dass die meisten Modelle die Tendenz aufweisen, eine immer höhere Zahl zu nennen, wenn man sie mehrfach auffordert es noch einmal mit dem selben Wort zu versuchen. Das deckt sich etwas mit dem beschriebenen Problem.

SacredMetal 15.10.2024, 13:16 Uhr

Stimmt nicht, eben mit ChatGPT ausprobiert. Kann wunderbar Buchstaben zählen.

Antworten Melden

Antworten Melden

Uwe 15.10.2024, 13:48 Uhr

Und ist zu blöd die korrekte Uhrzeit in meiner Stadt zu ermitteln. Und nein, kein Zeitzonen-Problem, es liegt mit einem total krummen Wert total daneben.
Klausi 15.10.2024, 15:14 Uhr

In Berlin, it’s currently 3:12 PM on Tuesday, October 15, 2024 .
heldausberlin 15.10.2024, 17:39 Uhr

Hab’s grad ausprobiert. ChatGPT liegt häufig falsch. Aber selbst wenn er richtig liegt und du ihm „Falsch“ antwortest, korrigiert er sich mit einem falschen Ergebnis. Bei wiederholter Frage kommen unterschiedliche Ergebnisse.

googmann 15.10.2024, 13:17 Uhr

Wieviele Buchstaben hat das Wort „Buchstaben“?

Das Wort „Buchstaben“ hat 10 Buchstaben.

Scheint tatsächlich eine riiiiesen Herausforderung zu sein, hast recht

Antworten Melden

Antworten Melden
Pukeko 15.10.2024, 13:18 Uhr

Überhaupt nicht. Ich habe es mehrfach versucht und es kommen immer die richtigen Antworten. Bei Nachfrage schreiben die Modelle sogar noch eine laufende Nummer vor jeden Buchstaben.

Antworten Melden

Antworten Melden
Nik 15.10.2024, 13:19 Uhr

Kann ich nicht bestätigen. Ich habe 10 Versuche hinsichtlich Buchstabenzählen gemacht und es waren alle richtig. Da stolpert gar nix

Antworten Melden

Antworten Melden
Klaus 15.10.2024, 13:21 Uhr

Blödsinn

Antworten Melden

Antworten Melden
Pazuzu 15.10.2024, 13:31 Uhr

Vielleicht hätte ich anmerken sollen, dass z.B. ChatGPT bereits ein Update erhalten hat, wodurch dieses kleine Problem „umgangen“ wird. Mea culpa.

Antworten Melden

Antworten Melden

Pazuzu 15.10.2024, 13:41 Uhr

Um genauer zu sein: ChatGPT kann seit etwa einem Monat Buchstaben zählen https://youtube.com/watch?v=1tX5aea0La4
Dennoch beschreibt das ganz gut eines der Probleme: Die „AI“ „denkt“ nicht, sondern agiert nach Mustern und Wahrscheinlichkeiten. Und scheitert, wenn für ein neues Problem keine entsprechende (Ausnahme-)Routine vorgegeben wurde.
garth 16.10.2024, 02:42 Uhr

Sind wir aber nicht auch probabilistische Systeme, die ständig nach Mustern Ausschsu halten? In einer Vorlesung über KI wurde lange darüber diskutiert, inwiefern wir Stochastische Papageien sind.

R4inb0wD4sh 15.10.2024, 14:50 Uhr

Zumindest kann chatgpt nicht zählen wie viele r das wort Erdbeere enthält. Kommt immer auf 3

Antworten Melden

Antworten Melden

googmann 15.10.2024, 16:18 Uhr

Zähle wieviele „r“ das Wort Erdbeere enthält

Das Wort „Erdbeere“ enthält zwei „r“.

Ich tippe hier auch stark auf Fehler 30
Pazuzu 15.10.2024, 17:06 Uhr

Schonmal dran gedacht, dass er vielleicht eine lokale Installation nutzt, die älter als vier Wochen ist? Geeze.
googmann 15.10.2024, 18:35 Uhr

Ja, macht Sinn… NICHT
Pazuzu 15.10.2024, 20:28 Uhr

Kommt da noch was gehaltvolles, oder hat das einfach nur deine Auffassungsgabe überstiegen? O.o

Vetris 15.10.2024, 13:13 Uhr

Es ist durchaus angebracht, dem KI-Hype ein wenig die Luft rauszulassen. Ab einer bestimmten Stelle beginnen KIs zu faseln, zu halluzinieren. Letztendlich sind KIs nur aufgemotzte ELIZA-Programme. Sie täuschen Kommunikationsfähigkeit nur vor.

Netfuchs 15.10.2024, 13:39 Uhr

Genau, nicht das Apple Kunden noch auf die Idee kommen könnten, das Apple da einen Trend verpennt hat!

Antworten Melden

Antworten Melden

hans 15.10.2024, 13:44 Uhr

Oder so ziemlich jedes deutsche Unternehmen. Höhöhö
MSantino 15.10.2024, 19:16 Uhr

Naja Apple macht viel in Hard und Software in Gesamtpaketen und noch nie ist Apple sofort auf irgendnen Hype gesprungen!

Uwe 15.10.2024, 13:51 Uhr

Naja, ich durfte neulich unfreiwillig den KI-basierten Support der DHL-Packstationen in der App testen. ELIZA in den 80ern auf nem Z80 war intelligenter…

Solche ML-Lösungen sind dort wirklich gut, wo es um effiziente Mustererkennung mit hoher Geschwindigkeit geht (z.Bsp. in medizinischen Bereichen, wo bildgebende Verfahren ausgewertet werden müssen). Ansonsten ist da manchmal von Intelligenz nicht wirklich was zu merken.

Antworten Melden

Antworten Melden

heldausberlin 15.10.2024, 17:42 Uhr

Korrekt. Die Telekom verwendet jetzt ebenfalls einen ähnlichen Chatbot, der einfach falsche Antworten liefert. Weist man ihn draufhin, entschuldigt er sich und liefert noch falschere Ergebnisse.

Boris 15.10.2024, 13:57 Uhr

Da wurde IMHO kein Trend „verpennt“ – ich bin eher enttäuscht, dass Apple aus irgendeinem Grund meint da jetzt auch aufspringen zu müssen.

Ja, Bilder erzeugen und editieren. Das klappt und wenn Apple das dann lokal ohne Cloud macht, alles fein (da sind andere auch schon)

Aber diese LLM Geschichten … oh weh. Ja natürlich gibt es Menschen die schon Sachen damit gemacht haben (Code schreiben lassen etc.) – ich behaupte aber, dass mindestens genauso viele gibt bei denen das nicht zufriedenstellend funktioniert hat (falscher Code voller Fehler, an der Fragestellung vorbei, falsche Zusammenfassungen anstatt zu schreiben „mir fehlen die Daten“ usw.)

Nun möchte Apple mit LLM wirklich Kontextbezogen und App übergreifend Dinge tun?! Soweit ich LLM verstehe kann das nur scheitern oder maximal ein gelenktes Glücksspiel werden.

Der Punkt ist nicht, dass mit diesen werkzeugen gar nichts möglich wäre. Der Punkt ist doch aber, dass es weder vorhersehbar noch zuverlässig ist.

Na wir werden sehen.

Krümel 15.10.2024, 14:08 Uhr

Kann meinen Vorrednern nur anschließen und seh ich auch genau so. Auch bei ChatGPT & Co. Es steht überall KI drauf, weil es aus Marketingsicht modern ist und geklickt und verkauft wird. Beispiel: Wetterapp nun mit KI. Aha. Aber die Wettervorhersage funktionierte auch schon vor 50 Jahren. War die dann schon immer intelligent? Oder macht die Wetterapp nicht einfach genau das, was sie bisher auch gemacht hat, nämlich Hoch-/Tiefgebiete beobachten und daraufhin berechnen, wo die Zelle hinwandert? Was heißt wirklich „intelligent“? In meinen Augen reicht es nicht, Schlüsse zu ziehen, denn das lässt sich sehr leicht umsetzen und mal ehrlich: 99% der angeblichen KIs da draußen folgen einfach nur einem Algorithmus, den sich der Programmierer ausgedacht hat, sprich sind hardgecoded und haben mit echter „Intelligenz“ überhaupt nichts zu tun. Aber es ist halt modern, überall „KI“ drauf zu schreiben – egal obs stimmt oder nicht. Interessant wird es meiner Meinung nach erst, wenn Neues geschaffen wird, noch nie Dagewesenes. Und selbst hier ist es schwierig, denn letztendlich formuliert ChatGPT auch nur bereits recherchierte Artikel aus der eigenen Datenbank um. Ist das dann „intelligent“? Nunja, ich weiß ja auch nicht…

Thorondor 17.10.2024, 05:37 Uhr

bei allen KI fehlt mir die Möglichkeit, im Laufe der Zeit Neues zu lernen. Selbständige festzustellen, dass etwas falsch oder nur nahezu richtig war und es selbständig zu korrigieren.
das ist Intelligenz

Antworten Melden

Antworten Melden

Plastik 15.10.2024, 15:43 Uhr

Moment, Apple hängt doch nicht etwa so weit hinterher das denen das nicht vorher klar war.
Der Versuch ist schon ein Armutszeugnis und klingt nach, ok wir probieren dieses KI auch mal aus.

Ich geh doch auch nicht zum Bäcker, bestell ne Windmühle und wundere mich das die nicht mahlen kann.

Peter 15.10.2024, 16:09 Uhr

Apple soll die KI mal gegen die ifun-Kommentarsektion antreten lassen. Da schlägt die Maschine sicherlich den Menschen ;)

atikalzone 16.10.2024, 12:57 Uhr

Solange es nicht mal klappt, ordentlich verständliche normale Telefonate mit einem nagelneuen iPhone zu führen. Oder simple Spracheingaben immer und immer und wieder falsch verstanden und nichts im Ansatz dazu gelernt wird, sehe ich hier von Intelligenz wirklich überhaupt keine Spur!

Tiberium 17.10.2024, 15:47 Uhr

Und ich zweifle An Apple…..

"Mathematische Logik" problematisch

Kein logisches Denken: Apple zweifelt an KI-Fähigkeiten

„Mathematische Logik“ problematisch

Neuer Benchmark zur besseren Bewertung

Redet mit. Seid nett zueinander! Antworten abbrechen