ifun.de — Apple News seit 2001. 39 059 Artikel

"Mathematische Logik" problematisch

Kein logisches Denken: Apple zweifelt an KI-Fähigkeiten

Artikel auf Mastodon teilen.
51 Kommentare 51

Ein Team aus sechs bei Apple angestellten KI-Forschern hat in einem neuen Bericht die Fähigkeiten großer KI-Sprachmodelle, sogenannter LLMs, zur mathematischen Problemlösung unter die Lupe genommen.

GS Mcompare A242881839

Im Fokus der Untersuchung stand dabei die Resultate gängiger Testverfahren wie dem GSM8K-Benchmark, dessen Aussagekraft die Forscher infrage stellen. Der GSM8K-Benchmark wird häufig genutzt, um die mathematischen Fähigkeiten moderner KI-Modelle anhand eines Fragenkataloges auf Grundschulniveau zu bewerten.

Obwohl sich die Leistung der untersuchten Modelle in den letzten Jahren kontinuierlich verbessert hat, bleibt unklar, ob dies auf echte Fortschritte in der mathematischen Logik zurückzuführen ist.

„Mathematische Logik“ problematisch

Zudem stellten Apples Forscher fest, dass die Leistung der Modelle mit zunehmender Komplexität der Aufgaben deutlich abnimmt. Besonders auffällig sei, dass schon das Hinzufügen einer zusätzlichen Klausel, die für die Lösung irrelevant ist, zu einem Leistungseinbruch von bis zu 65 Prozent führen kann.

Dies deute darauf hin, dass die Modelle keiner echten logischen Argumentation folgen, sondern vielmehr Muster und Lösungswege nachahmen, die sie während ihres Trainings gelernt haben.

Logik Apple

Das Paper mit dem Titel „GSM-Symbolic: Understanding the Limitations of
Mathematical Reasoning in Large Language Models“ könnt ihr bei Interesse hier aus dem Netz laden:

Neuer Benchmark zur besseren Bewertung

Die Apple-Forscher haben einen neuen Benchmark namens „GSM-Symbolic“ entwickelt. Dieser soll eine größere Vielfalt an Fragen und präzisere Bewertungsergebnisse ermöglichen.

Die Untersuchung zeigt, dass die getesteten Modelle sehr unterschiedlich auf leichte Veränderungen in den Aufgabenstellungen reagieren. Alle Modelle zeigten schlechtere Ergebnisse, sobald inhaltlich gleiche Fragen nur in ihren Zahlenwerten verändert wurden. Dies legt nahe, dass die mathematische Logik der Modelle bei minimalen Anpassungen brüchig wird.

15. Okt 2024 um 12:34 Uhr von Nicolas Fehler gefunden?


    Zum Absenden des Formulars muss Google reCAPTCHA geladen werden.
    Google reCAPTCHA Datenschutzerklärung

    Google reCAPTCHA laden

    51 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.
  • Das hat auch schon vor ein paar Monaten ein anderes Forscherteam feststellen können. Das liest sich auch ziemlich übereinstimmend.

      • Warum sollte er dafür einen Lösungsansatz haben??

      • Apple hat vermutlich aus diesen und anderen Gründen nicht weiter in OpenAI investiert. Eventuell sucht Apple nun andere Wege, um KI ihren Ansprüchen nach zu entwickeln. Siri braucht dringend ein Update und ChatGPT ist nur ein Zwischenschritt. Wobei Apple auch andere Modelle integrieren möchte. Aleph Alpha hat aufgegeben, weil es finanziell und dadurch auch zeitlich nicht möglich ist, aufzuholen. Apple hat vermutlich das Geld. Mal sehen welchen Ansatz sie nun gehen.

      • „Lösungsansatz“: KI ist viel mehr Schein als Sein!

      • Das ist aber KEIN „Lösungsansatz“…!!! XD

      • Aber das neue Modell o1 ist bereits im preview richtig gut in Mathematik. Bislang konnte ich keinen Rechenfehler feststellen können

      • Ich antworte mal stellvertretend – Entschuldigung:

        It is not the way to go…

        Das mit dem „genuine logical reasoning“ ist für mich der Hauptpunkt.
        Etwas _sehr_ weit hergeholt, aber: Nur weil Leute beim Selfie machen von Klippen fallen, gehört das nicht zum Selfie machen. Wir wissen, das das ungesund ist, eine KI stellt einfach einen Zusammenhang her – also kann das für die KI passen, je mehr Leute das tun.

        Ganz anderes Thema: Die Smartphone-Welt bastelt seit Jahren an Falt-Phones rum, kann man inzwischen verwenden, ist nicht das Gelbe vom Ei. Apple hat nix im Angebot. Da man bei Apple nicht auf den Kopf gefallen ist, könnte die Antwort auch hier passen.

        Generalantwort für Einwände:
        …Ja, die machen auch manchmal Fehler da bei Apple.

  • Daher ist aus meiner Sicht, die Bezeichnung „Künstliche Intelligenz“ falsch. Und wenn man sich die Ergebnisse kritisch betrachtet, dann erkennt man schnell die Schwächen. Es ist ein komfortableres Google, nicht mehr und nicht weniger.

    • Du gehörst bestimmt auch zu der Sorte, die das Handy für sinnlos und das Internet für eine Spinnerei gehalten haben

    • Ist menschliche Intelligenz da anders?
      Hat ein Mensch noch nie eine falsche Information gegeben oder war überfordert?
      Wie funktionieren überhaupt menschliche Intelligenz, das Gedächtnis und das Gehirn?

      Merkste?

      • Es geht hauptsächlich um das Reasoning. Und da sind Menschen bereits wenn sie in der Grundschule gehen klar überlegen.

      • Menschliche Intelligenz beruht auf der Fähigkeit des Gehirns, Informationen zu verarbeiten, zu lernen, Probleme zu lösen, zu planen und sich an veränderte Umstände anzupassen. Sie umfasst kognitive Fähigkeiten wie Wahrnehmung, Gedächtnis, logisches Denken und Kreativität, die durch neuronale Netzwerke im Gehirn unterstützt werden. Diese Netzwerke kommunizieren über elektrische Impulse und chemische Signale. Intelligenz ist das Ergebnis von Genetik, Erfahrung und Umweltfaktoren.
        Viele Grüße von ChatGPT

    • Wenn Du Dir ansehen würdest, was KI in den Unternehmen verändert hat, würdest Du so etwas nicht schreiben.

  • Die Rattenfänger der KI werden weiterhin Erfolg haben – durch sachliche Nachrichten lässt sich doch die Masse nicht beeinflussen- und dann ist der geschilderte Sachverhalt nur ein winzig kleiner Bereich der trotz KI nicht „besser“ wird.

  • Aber das kann doch gar nicht sein: alle und wirklich alle in jeder erdenklichen Techniksparte betreiben inzwischen erfolgreich eine KI – und Apple kommen Zweifel?
    Ts, ts, Sachen gibts

    • In erster Linie wird doch nur Marketing betrieben, um Geld einzusammeln. Mitte der 90er startete der Multimedia-Hype, die Ergebnisse waren bescheiden, die Firmen maßlos überbewertet. Als die Blase platze, schlug Multimedia auf dem harten Boden der Realität auf und das Geld war seltsam verloren gegangen. Das Risikokapital war in der Zwischenzeit in alle möglichen Kanäle abgewandert ohne nennenswerten Gegenwert.

  • Das beginnt schon damit, dass ein LLM nicht wirklich „lesen“ kann, sondern Wörter, einzelne Buchstaben, Zahlen und sonstige Zeichen als Token erfasst. Wer mal ein Large Language Modell zum Stolpern bringen will, fragt es einfach nach der Anzahl der Buchstaben eines Wortes. Die „KI“ kann das nicht wissen, weil das Wort für sie lediglich eine kurze Nummernfolge darstellt. Da sie dennoch eine Antwort ausgeben muss, gibt sie einfach einen eher zufällig gewählten Wert an. In diesem Zusammenhang ist auffällig, dass die meisten Modelle die Tendenz aufweisen, eine immer höhere Zahl zu nennen, wenn man sie mehrfach auffordert es noch einmal mit dem selben Wort zu versuchen. Das deckt sich etwas mit dem beschriebenen Problem.

  • Es ist durchaus angebracht, dem KI-Hype ein wenig die Luft rauszulassen. Ab einer bestimmten Stelle beginnen KIs zu faseln, zu halluzinieren. Letztendlich sind KIs nur aufgemotzte ELIZA-Programme. Sie täuschen Kommunikationsfähigkeit nur vor.

    • Genau, nicht das Apple Kunden noch auf die Idee kommen könnten, das Apple da einen Trend verpennt hat!

      • Oder so ziemlich jedes deutsche Unternehmen. Höhöhö

      • Naja Apple macht viel in Hard und Software in Gesamtpaketen und noch nie ist Apple sofort auf irgendnen Hype gesprungen!

    • Naja, ich durfte neulich unfreiwillig den KI-basierten Support der DHL-Packstationen in der App testen. ELIZA in den 80ern auf nem Z80 war intelligenter…

      Solche ML-Lösungen sind dort wirklich gut, wo es um effiziente Mustererkennung mit hoher Geschwindigkeit geht (z.Bsp. in medizinischen Bereichen, wo bildgebende Verfahren ausgewertet werden müssen). Ansonsten ist da manchmal von Intelligenz nicht wirklich was zu merken.

      • Korrekt. Die Telekom verwendet jetzt ebenfalls einen ähnlichen Chatbot, der einfach falsche Antworten liefert. Weist man ihn draufhin, entschuldigt er sich und liefert noch falschere Ergebnisse.

  • Da wurde IMHO kein Trend „verpennt“ – ich bin eher enttäuscht, dass Apple aus irgendeinem Grund meint da jetzt auch aufspringen zu müssen.

    Ja, Bilder erzeugen und editieren. Das klappt und wenn Apple das dann lokal ohne Cloud macht, alles fein (da sind andere auch schon)

    Aber diese LLM Geschichten … oh weh. Ja natürlich gibt es Menschen die schon Sachen damit gemacht haben (Code schreiben lassen etc.) – ich behaupte aber, dass mindestens genauso viele gibt bei denen das nicht zufriedenstellend funktioniert hat (falscher Code voller Fehler, an der Fragestellung vorbei, falsche Zusammenfassungen anstatt zu schreiben „mir fehlen die Daten“ usw.)

    Nun möchte Apple mit LLM wirklich Kontextbezogen und App übergreifend Dinge tun?! Soweit ich LLM verstehe kann das nur scheitern oder maximal ein gelenktes Glücksspiel werden.

    Der Punkt ist nicht, dass mit diesen werkzeugen gar nichts möglich wäre. Der Punkt ist doch aber, dass es weder vorhersehbar noch zuverlässig ist.

    Na wir werden sehen.

  • Kann meinen Vorrednern nur anschließen und seh ich auch genau so. Auch bei ChatGPT & Co. Es steht überall KI drauf, weil es aus Marketingsicht modern ist und geklickt und verkauft wird. Beispiel: Wetterapp nun mit KI. Aha. Aber die Wettervorhersage funktionierte auch schon vor 50 Jahren. War die dann schon immer intelligent? Oder macht die Wetterapp nicht einfach genau das, was sie bisher auch gemacht hat, nämlich Hoch-/Tiefgebiete beobachten und daraufhin berechnen, wo die Zelle hinwandert? Was heißt wirklich „intelligent“? In meinen Augen reicht es nicht, Schlüsse zu ziehen, denn das lässt sich sehr leicht umsetzen und mal ehrlich: 99% der angeblichen KIs da draußen folgen einfach nur einem Algorithmus, den sich der Programmierer ausgedacht hat, sprich sind hardgecoded und haben mit echter „Intelligenz“ überhaupt nichts zu tun. Aber es ist halt modern, überall „KI“ drauf zu schreiben – egal obs stimmt oder nicht. Interessant wird es meiner Meinung nach erst, wenn Neues geschaffen wird, noch nie Dagewesenes. Und selbst hier ist es schwierig, denn letztendlich formuliert ChatGPT auch nur bereits recherchierte Artikel aus der eigenen Datenbank um. Ist das dann „intelligent“? Nunja, ich weiß ja auch nicht…

  • Moment, Apple hängt doch nicht etwa so weit hinterher das denen das nicht vorher klar war.
    Der Versuch ist schon ein Armutszeugnis und klingt nach, ok wir probieren dieses KI auch mal aus.

    Ich geh doch auch nicht zum Bäcker, bestell ne Windmühle und wundere mich das die nicht mahlen kann.

  • Apple soll die KI mal gegen die ifun-Kommentarsektion antreten lassen. Da schlägt die Maschine sicherlich den Menschen ;)

  • Redet mit. Seid nett zueinander!

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

    ifun.de ist das dienstälteste europäische Onlineportal rund um Apples Lifestyle-Produkte.
    Wir informieren täglich über Aktuelles und Interessantes aus der Welt rund um iPad, iPod, Mac und sonstige Dinge, die uns gefallen.
    Insgesamt haben wir 39059 Artikel in den vergangenen 8393 Tagen veröffentlicht. Und es werden täglich mehr.
    ifun.de — Love it or leave it   ·   Copyright © 2024 aketo GmbH   ·   Impressum   ·   Cookie Einstellungen   ·   Datenschutz   ·   Safari-Push aketo GmbH Powered by SysEleven