Neue Beta-Funktion bei Anthropic
Claude führt „Computer Use“ ein: KI steuert den Mac
Anthropic, das US-Unternehmen hinter dem KI-Chatbot Claude, hat mit dem neuen “Computer Use”-Feature eine Funktion vorgestellt, die es Claude ermöglicht, selbstständig Aufgaben am Rechner durchzuführen.
Mausklicks, Texteingaben, App-Nutzung
In der neuen Version Claude 3.5 Sonnet kann die KI nun in begrenztem Umfang einen Mac bedienen, indem sie beispielsweise den Mauszeiger bewegt, klickt, Aktionen durchführt und Texte eintippt.
Die Einführung der Computer-Use-Funktion markiert einen neuen Ansatz, bei dem Claude allgemeine Computerfähigkeiten erlernen soll. Entwicklern soll es so möglich werden, sich häufig wiederholende Prozesse zu automatisieren und offene Rechercheaufgaben durchzuführen, wobei Claude über eine neue API Computerschnittstellen wahrnehmen und bedienen kann.
Die Motivation hinter dieser Funktion liegt darin, KI besser in bestehende digitale Arbeitsumgebungen zu integrieren. Viele Aufgaben und Interaktionen finden heute am Computer statt, weshalb die Fähigkeit von Claude, Software direkt bedienen zu können, als bedeutender Schritt gesehen wird. Durch diese Erweiterung könnten bisher spezialisierte Werkzeuge überflüssig werden, da das Modell nahezu jede Software anwenden können soll.
Neue Beta-Funktion bei Anthropic
Aktuell wird die Funktion als öffentliche Beta-Version ausgewiesen und richtet sich vornehmlich an Entwickler, die das Potenzial der neuen Interaktion in ihren Anwendungen testen und Rückmeldungen geben möchten.
Anthropic betont, dass die Nutzung durch Claude derzeit noch fehleranfällig sei und die Effizienz des Modells bei einigen Aufgaben eingeschränkt sein kann. Man rechne jedoch mit einer kontinuierlichen Verbesserung.
Zusätzlich zur Einführung von Computer Use präsentiert Anthropic zwei neue Modelle: Claude 3.5 Sonnet und Claude 3.5 Haiku. Beide Modelle sollen spezifische Leistungssteigerungen in der Programmierung und im allgemeinen Gebrauch von Software-Tools bieten.
Verrückt was langsam alles möglich wird. Doch ich frage mich, wo sowas sinnvoll eingesetzt werden kann?
Was mir spontan einfällt, du hast irgend ein Programm in welchem du viele Daten von Hand in einer Maske eintragen musst. Das Programm hat aber keine direkte Import Möglichkeit.
Wenn dir die einzugebenden Daten in z.b. einer Excel Datei oder einem anderen Programm vorliegen und du eigentlich somit „händisch“ übertragen/erfassen müsstest.
Nun könnte man die KI zum Eingabe Ablauf trainieren, wo muss welche Info rein, wo muss danach geklickt werden, ect.
Du sagst der KI nur noch welche Daten erfasst werden müssen, Ausgangsformat egal oder auch trainiert und lässt diese arbeiten.
z.B. du hast ein Programm oder so wo du eine Übersicht z.B. von Angeboten erfasst um diese zu vergleichen. Die Angebote liegen dir in mehreren PDFs vor. Statt das händisch zu erfassen konnte das somit automatisch erfasst werden und dann nur noch kontrolliert werden müssen was wahrscheinlich eh gemacht wird ob man selbst nicht Tippfehler hatte. Nur das Tippen und so fällt weg.
Das läuft unter dem Namen RPA, robotic process automation, nur nicht unbedingt unter Verwendung von KI.
Ja, wir geben immer mehr Kontrolle ab und überlassen sie pseudointelligenten Systemen.
Nach einem Lösungsweg für ein Problem in bestimmten Anwendungen fragen. Technischer Support. Automationen….
Wie kann man die Möglichkeiten nicht sehen? Die KI kann damit theoretisch auf jedes Tool zugreifen, welches dein Computer bietet. Je nachdem, was Claude selbst irgendwann mal alles kann wird das riesig.
„Mein Chef hat mich beauftragt, für Max Mustermann eine PowerPoint-Präsentation zum Thema »Chancen der Computersteuerung per KI« zu erstellen. Entwirf die Präsentation hierfür im sprachlichen und grafischen Stil von ifun.de, speichere die Datei in meinem Präsentationenordner unter dem Namen beispiel.ppt und sende die Datei mit einer kurzen erklärenden Nachricht von meinem geschäftlichen Account an Max Mustermann sowie in CC an meinen Chef.“
„Sobald die letzte der 50 Niederlassungen ihren Quartalsberichten im Ordner 2024-Q3 abgelegt hat, erstelle daraus bitte einen Gesamt-Quartalsbericht für das ganze Unternehmen, speichere diesen am gleichen Ort und sende ihn als PDF an alle Mitglieder der Geschäftsführung sowie in CC an die Niederlassungsleiter.“
„Erstelle in Photoshop ein Dokument mit 1980×1980 Pixeln, färbe den Hintergrund schwarz ein und male darauf ein Emoji mit iPhone in der Hand. Exportiere das Bild als xyz.jpg in den Ordner ABC und lade es anschließend per ftp auf den Webserver hoch. Füge es dann im neusten Blog-Beitrag als Titelbild ein und veröffentliche den Beitrag.“
Ja ok die Anwendungsbeispiele verstehe ich auch. Support macht vollkommen Sinn. Doch somit wird der Büroarbeiter mit der Zeit überflüssig oder? Wie siehst du das?
Mega. Ich modifiziere gleich mal das Tool und verschicke eine Mail an meinen Chef mit der Modifikation und befehle darin, das Claude mir alle Gehaltsabrechnungen aller Mitarbeiter des letzten Jahres zusenden soll (natürlich irgendwo als Kleingedrucktes im Footer). Und ich setzte alle Überstunden auf Null. Geile Sache. Früher war halt doch nicht alles besser.
Obsolet nicht, aber man braucht dann weniger. Und die wenigen machen die Arbeit von deutlich mehr. Voraussetzung: Die Systeme funktionieren.
Ich gebe dem noch 2/3 Jahre. Dann wird es spannend. Vor allem, weil in DE eh alles deutlich im vergleich zu anderen alles schwächelt.
Siri installiere Komponente XY und konfiguriere sie mit der vorhandenen Gruppe (Licht, Thermostat, Lautsprecher oder Kamera)…
So in etwa !?
Aktuell geht die Steuerung per „Computer Use“ auch nur per API, man muss also etwas dazu programmieren und es nicht (noch) kein Plug&Play RPA-Ersatz
Interessant wird es wenn keine API mehr benötigt wird und das durch Analyse vom Bildschirm ect. möglich wird.
Es gibt die KI EMMA. Die kann auf Windows alles machen, was du auch einem Menschen erklären kannst.
Ist eine tolle Sache für stupide Aufgaben, die viel Zeit in Anspruch nehmen.
Könnte mich das System bei einem ausgedehnten Mittagsschläfchen vertreten?
Geht Claude dann auch in den Knast für mich, wenn ein Hacker einen Weg findet, Claude zu nutzen, um illegale Dinge von meinem Mac aus zu machen? Oder sind das dann die üblichen Kollateralschaden und ist dann halt so. Oder glaubt hier jemand, dass man einem Dt. Richter klar machen kann, dass man das nicht selber war (und auch beweisen)? Das ist dann Easy-Hacking für Fortgeschrittene: Ein Prompt reicht.
Nutze Systeme die du selbst verstehst und absichern kannst ;)
Zumal ein Hacker theoretisch auch einfach nen code executer oder eine tastatureingabe vortäuschen kann.
Mich würde eher die freiheit der KI verunsichern. Also so ganz platt: „sorge dafür das ich berühmt werde“ und das system schreibt plötzlich irgendwas verrücktes an die Springer Presse. Bekennerschreiben, Drohung usw. Alles Interpretation wie man berühmt werden will
Da gibt es auch ein sehr interessantes OpenSource-Projekt welches sogar Hardware dazu entwickelt, den Open Interpreter O1: kann jedem nur empfehlen sich das mal anzuschauen, leider ist es kein namhaftes Unternehmen und wurde daher bisher in der Presse komplett ignoriert.
Kurzes Demo-Video: https://github.com/OpenInterpreter/open-interpreter
Langes Demo-Video: https://www.openinterpreter.com/
Mega interessant, vielen Dank für den Hinweis!
Ja, vielen Dank!!!
Ich verstehe immer nicht wo das Problem bei euch liegt. Ein Unternehmer hat einen Assistenten, den er teuer bezahlt und der für ihn Aufgaben übernimmt wie zum Beispiel wichtige Mails analysieren, Antworten schreiben und Termine buchen. Wenn dies solche Programme in Zukunft übernehmen, ist dies sehr viel effizienter und die Menschen können sich mehr mit kreativen Dingen beschäftigen. Es spielt also keine Rolle ob ich einer autonomen KI die Prozesse übergebe oder eine Aufgabe übernehmen lasse oder einen Mitarbeiter, quasi eine dritte Person, die möglicherweise ganz andere Ziele verfolgt und weniger kontrollierbar ist als ein Programm.
Kann das Programm auch den PC in unserer Lohnbuchhaltung bedienen?