Llama 3.1 unter macOS
Meta-KI auf dem Mac nutzen: Lokal, offline, gratis und auf ChatGPT-Niveau
Da wir gerade noch mal über das neue, kostenfrei erhältliche KI-Modell des Facebook-Mutterkonzerns Meta geschrieben haben, wollen wir an dieser Stelle noch einmal darauf eingehen, wie sich „Llama 3.1“ lokal auf dem eigenen Mac nutzen lässt.
Ollama lädt Metas KI-Modell auf euren Mac
Llama 3.1 auf macOS ausführen
Zum Hintergrund: Meta hat mit Llama 3.1 ein KI-Modell veröffentlicht, das Anwender kostenfrei aus dem Netz laden und ohne Limitierungen auf ihren lokalen Maschinen nutzen können. Die Antworten des KI-Modells sind mit denen von ChatGPT vergleichbar, allerdings benötigt das KI-Modell keine Internetverbindung.
Vorausgesetzt wird lediglich ein Mac mit performantem Apple-Prozessor, mindestens 8 Gigabyte Arbeitsspeicher und das Wissen darum, wie sich das KI-Modell am besten herunterladen und auf dem Mac ausführen und einsetzen lässt.
Ollamac bietet eine schlichte Chat-Oberfläche
Ollama und Ollamac helfen
Für die maximal einfache Nutzung Llama 3.1 stehen mehrere Helfer bereit, die alle kostenlos verfügbar sind und in wenigen Minuten installiert werden können.
Ollama
Die kleine Ollama-Anwendung kümmert sich um den Download und das Update des aktuellen Modells und arbeitet als aktiver Server im Hintergrund, um Anfragen an das Modell weiterzureichen und dessen Antworten auszugeben. Ollama kann hier geladen werden.
Habt ihr Ollama installiert, dann könnt ihr mit dem Terminal-Kommando ollama run llama3.1
das aktuelle KI-Modell von Meta aus dem Netz laden. Dieses benötigt etwa 5 Gigabyte freien Festplattenspeicher.
llama3.1 benötigt etwa 5 GB freien Platz auf der Platte
Ollamac
Ihr könntet nach der Installation von Ollama bereits im Terminal mit dem KI-Modell von Meta kommunizieren. Die ebenfalls kostenfreie Mac-Anwendung Ollamac macht die Gespräche jedoch deutlich komfortabler.
Verfügbar auf dem Code-Portal GitHub, könnt ihr euch Ollamac kostenlos aus dem Netz laden und die Anwendung ausführen, sobald ihr den Server durch die Ausführung von Ollama gestartet habt. Jetzt steht euch eine native Benutzeroberfläche für neue Chats zur Verfügung.
Ollamac mit llama3.1: Offline, kostenlos, ohne Limits
Viel mehr gibt es eigentlich nicht zu wissen. Sind Ollama und Ollamac installiert, könnt ihr das von Meta angebotene KI-Modell ohne Beschränkungen offline, so häufig in Anspruch nehmen, wie ihr möchtet, und dies ohne, dass Daten abfließen und ohne, dass auch nur ein Euro an Meta überwiesen werden müsste.
Die richtig guten Modelle wie das 405B-Modell, welches auf GPT-4 Niveau kommt, lassen sich nicht wirklich auf reguläre Hardware ausführen.
Laut Meta braucht man hier mindestens zwei Server mit mind. 8 GPUs. Und damit sind NVIDIA H100 GPUs gemeint (40k€+ jeweils).
Also leider (Stand jetzt) nicht wirklich auf GPT-4 Niveau auf Macs, selbst in den größten Konfigurationen, nutzbar, wenn man das 405B-Modell nicht ausführen kann….
Des behauptet der Artikel auch gar nicht, dass die KI auf GPT 4 Niveau sei.. da steht lediglich „die Antworten sind mit denen von ChatGPT vergleichbar“, eine Version wird hierbei nicht erwähnt..
Sie sind nicht vergleichbar – 8 GPUs sind mächtig knapp. Habs jetzt intensiv getestet und verglichen. Aber manchmal muss man Dinge offline testen. Auch geht nicht so richtig hervor, welches Modell das ist, auch wenn man das beste wählt.
Aber im Artikel steht doch das kleine lokale Meta Modell ist auf ChatGPT Niveau
In ChatGPT stehen natürlich auch wieder unterschiedliche KI-Modelle zur Auswahl und hier direkt zu Vergleichen ist immer schwierig – grundsätzlich lässt sich aber festhalten, dass die Ausgaben die llama 3.1 hier auf dem Mac bietet sehr brauchbar sind und die Installation durchaus rechtfertigen. Hier nach Einsatzgebiet stellt Meta hier ein kostenfreies und gänzlich lokales Produktivwerkzeug zur freien Verfügung.
Naja – würde ich noch nicht sagen … aber testen sollte man es schon mal.
Interessant ist es allemal, es muss ja nicht unbedingt das neueste Modell sein.
Da es nun immer mehr lokale Modelle gibt, würde mich interessieren wie man diese auch mit lokalen Daten (Dokumentationen, etc.) füttern kann um damit zu interagieren.
Hat jemand von euch einen Tip wie man hier als Neuling (mit IT know how) am besten einsteigen kann?
Am coolsten wäre es wenn es einen art Baukasten gäbe um verschiedene lokale Prozesse mit KI zu steuern, anzureichern…
Schau dir einmal „AnythingLLM“ an, dort hast Du mit der integrierten Vektordatenbank ein echtes RAG – habe es die letzten Tage getestet und funktioniert echt Gut! Was ganz nice ist, man kann damit anscheinend auch embeddings für andere Tools erstellen.
Ach ja, Du kannst dort embeddings für lokale als auch Cloud( OpenAi/Anthrophic ) nutzen sowie über LmStudio o. Ollama.
Sprich, wenn Du LLM’s lokal mit den verschiedensten Tools verwenden willst, dann musst Du nicht für jedes immer wieder die gleichen LLM’s herunterladen!
Danke dir, werde es mir mal ansehen.
Wie ist das denn mit den lokalen KI-Modellen, kann man diese anlernen bzw. lernen die mit der Zeit durch die Interaktionen ?
Wie kann ich dies auf den aktuellen iPads mit M Prozessoren nutzen?
Gar nicht, evtl. gibt es eine Testflight App, da aber das UI fehlt, wird es frickelig.
@Nicolas: Lokal, offline, gratis und auf ChatGPT-Niveau.
Gibt es das auch annähernd als App fürs IPhone?
Wenn du das Kostenlos-Kriterium abziehst, dann wäre dies eine Option: https://www.ifun.de/private-llm-offline-alternative-zu-chatgpt-218130/
Vielen lieben Dank Nicolas
„Vorausgesetzt wird lediglich ein Mac mit performantem Apple-Prozessor“ -> läuft auch auf Intel Mac (hier ein macmini pro von 2018 mit 32 GB), ist dann nur eben entsprechend langsamer und der Rechner braucht genügend RAM. Aber für das kleine Llama-Modell um ein bisschen rum zu spielen und wenn man genügend Zeit mitbringt, reichts. So wirklich überzeugen mich die KI-Antworten nicht, aber das scheint ja ein Feature von KI zu sein und kein Bug ;-) Ach und der Link zu Ollamac auf Github im Artikel ist falsch. Der führt auf Ollama. Hier der richtige: https://github.com/kevinhermawan/Ollamac
Unterstützt Ollama den upload von eigenen (PDF-) files zur nachfolgenden Analyse ?
Klar doch. Per CLI ist das mühsam – wo ist nochmal das Verzeichnis, in dem die Dateien abgelegt werden müssen?
Aber inzwischen geht das auch mit Open WebUI: https://github.com/open-webui/open-webui/issues/31#issuecomment-1880154203
Funktioniert. Manchmal gut. Oft eher, hm… naja.
Ich hab’s ausprobiert. Habe diese Webseite hier als PDF gedruckt, in WebUI hochgeladen und llama3.1:70b gefragt: „Worum geht es in diesem Artikel?“
Hier die Antwort: „Der Artikel handelt davon, wie man Meta-KI auf dem Mac lokal, offline und kostenlos nutzen kann, ähnlich wie ChatGPT.“
Auf meine Frage „Was beschreibt die Datei?“ zu einer mehrsprachigen Bedienungsanleitung für ein portables Klimagerät bekam ich die – doch eher ernüchternde – Antwort: „Die Datei bezieht sich auf die „personenbezogenen Daten“ im Zusammenhang mit der MEDION AG, einem Unternehmen, das personenbezogene Daten verarbeitet und speichert. Die Datei enthält Informationen über die Rechte von Personen in Bezug auf ihre Daten, wie z.B. das Recht auf Auskunft, Berichtigung, Löschung, Einschränkung der Verarbeitung, Widerspruch gegen die Verarbeitung sowie auf Datenübertragbarkeit.“
Ollama bietet Dir eine LLM Inference Engine mit etwas (nicht unerheblichen Komfort drum rum; wer den nicht braucht kann direkt llama.cpp nutzen, was auch in Ollama werkelt).
Was Du willst ist ein RAG-System (Retrieval Augmented Generation), welches bevor das LLM angesprochen wird, die für Deine Fragen (Deinen Prompt) relevanten Infoteile z.B. in Deinen Dokumenten findet (mittels z.B. einer Vektordatenbank etc.) und diese Teile dem LLM zusammen mit Deiner Frage mitgibt (was eben dann z.B. über Ollama/Lama.cpp ausgeführt wird).
Solche Systeme/Anwendungen gibt es einige (die wiederum auch gerne Ollama nutzen/eingebaut haben). Sowohl lokal nutzbar oder als Web- und Cloud-Anwendung.
Auf iPad oder iPhone eher weniger, da zwar die Prozessoren gar nicht schlecht sind, aber der limitierende Faktor der RAM-Speicher ist. Der ist bei diesen Geräten sehr/zu knapp für die interessanten aktuellen Modelle ist (z.B. ein Llama 3.1 8B braucht mit Q4 sicher gut seine ca. 4-5 GByte RAM-Speicher). Daher ist so etwas mit lokal ausgeführten LLMs auf dem Mac (mit deutlich mehr RAM) sinnvoller.
Es gibt aber immer mehr viel kleinere Modelle, auch gerade von Apple (OpenELM), die deutlich weniger Speicher benötigen. Es muss nicht immer ein Riesenmodell sein, für viele Aufgaben reichen kleine und/oder spezialisierte Modelle plus ein „smartes Drumherum“ völlig aus (z.B. beim rein sprachlichen Text formulieren).
Ich habe ein ChatGPT Abo und nutze auch LLama 3.1 7b lokal auf meinem Mac. Letzterer ist bei weitem nicht mit ChatGPT vergleichbar.
Geht nicht.
„Error: pull model manifest: Get „https://registry.ollama.ai/v2/library/llama3.1/manifests/latest“: http: server gave HTTP response to HTTPS client
*********** ~ %“
Einfach nochmal probieren! Die URL liess sich hier gerade problemlos aufrufen.
Leider antwortet Ollamac jeweils nach der ersten Interaktion in einem Chat nicht mehr (antwortet perfekt auf die erste Frage, bei allen folgenden ist das Antwortfeld einfach leer). Hat noch jemand dieses Problem?