KI-System Whisper im Hintergrund
MacWhisper transkribiert eingesprochene oder als Datei vorliegende Texte
Der Entwickler Jordi Bruin hat sich mit Mac-Anwendungen wie Vivid, Cooldown oderMacGPT einen Namen gemacht. Sein neuestes Projekt nennt sich MacWhisper und fungiert als Mac-Interface für die KI-Spracherkennung Whisper.
Zunächst kurz zu Whisper: Hierbei handelt es sich um eine auf künstlicher Intelligenz basierende Spracherkennung, mit deren Hilfe sich Sprachaufnahmen rasend schnell und extrem treffsicher transkribieren lassen. Die Grundlage für diese Funktion bietet ein 680.000 Stunden umfassender Datenpool, der aus verschiedensten im Internet gesammelten Aufnahmen besteht und es dem System unter anderem erlaubt, auch technisches Vokabular zu verstehen und aus verschiedenen Sprachen ins Englische zu übersetzen. Auch Hintergrundgeräusche innerhalb der Aufnahmen beeinträchtigen die Qualität der Spracherkennung in der Regel nicht.
MacWhisper setzt auf KI-Datenbank auf
Das Team hinter dem KI-Projekt Whisper bietet das Werkzeug als freie Software an, um es Entwicklern zu ermöglichen, darauf basierend nützliche Anwendungen zu erstellen. MacWhisper präsentiert sich nun als ein aus dieser Idee heraus gestaltetes Werkzeug für Mac-Besitzer.
MacWhisper bietet ein einfaches Interface, über das sich gleichermaßen Audiodateien vom Typ MP3, WAV, M4A oder MP4 verarbeiten sowie Live-Aufnahmen per Mikrofon einspielen lassen. Der Text wird im Anschluss angezeigt und kann per Copy-und-Paste in andere Anwendungen übernommen werden.
MacWhisper unterstützt die Eingabe in einer Vielzahl von Sprachen, ist allerdings besonders für die Transkription von englischsprachigen Texten optimiert. Bei der Eingabe anderer Sprachen wie etwa Deutsch muss man zumindest in der aktuellen Version von Whisper noch mit Geschwindigkeitseinbußen und einer erhöhten Fehleranfälligkeit leben.
Die App MacWhisper wird in vom Entwickler in der Basisversion kostenlos abgegeben. Beim Kauf der leistungsfähigeren Pro-Version steht es jedem Nutzer frei, einen beliebigen Euro-Betrag ab 8 Euro aufwärts als Spende und zur Unterstützung der Weiterentwicklung als Preis festzulegen.
Gibt es sowas fürs iPad und Windows, was auch untereinander synced?
Gibt es sowas auch für iOS/iPadOS?
Würde mich auch interessieren
Kennt jemand eine gute Lösung andersrum, also aus Text Audiodateien zu machen mit natürlicher Stimme?
synthesia.io
Let us Listen app
Beachtet aber, dass die free Version nur das Tiny-Model von Whisper nutzt. Für State-of-Art Performance empfehle ich das Large-Model, zumindest hab ich nur mit diesem Modell in meiner Python-Umgebung besonders gute Ergebnisse erzielt.
Also meine Versuche mit deutscher Sprache in der Pro Version ergeben unbrauchbare Ergebnisse – sorry. Keine Empfehlung von mir.