Arbeitet mit Apples Vision Framework
OwlOCR: Kleine Offline-Texterkennungs-App für den Mac
OwlOCR ist ein neues Texterkennungs-Tool für macOS Catalina, das sich auch ohne Internetverbindung verwenden lässt. Die Bildanalyse wird mit erfreulich guten Ergebnissen lokal durchgeführt.
Der hinter der App stehende Entwickler Tommi Urtti setzt für die Textanalyse auf das von Apple für diesen Zweck bereitgestellte Vision Framework. Die Funktion bietet unter Einsatz von maschinellem Lernen weitreichende Texterkennungsfunktionen und ist vor allem auch in der Lage, die Texte strukturiert zu erfassen.
OwlOCR selbst ist eine vergleichsweise einfache Anwendung. Bilder im Format PDF, GIF, PNG, JPEG oder JPG können per Drag-and-Drop auf das Anwendungsfenster gezogen werden. Die Texterkennung startet dann automatisch und der gewandelte Text steht umgehend zum Kopieren und der Weiterverarbeitung bereit.
Ihr müsst allerdings wissen, dass die App nur englischsprachige Texte mit aktivierter Rechtschreibkorrektur verarbeiten kann. Macht diesen Schalter also für deutsche Texte aus, die Ergebnisse sind dennoch sehr gut. Einzig das Werkzeug zum direkten Aufnehmen von Screenshots braucht noch etwas Pflege, hier hatten wir zumindest Probleme hinsichtlich der Funktion.
Die App wird derzeit kostenlos angeboten, dem Entwickler zufolge soll der Preis zukünftig 5,49 Euro betragen.
@“iFun“:
Erst einmal danke für diesen Tipp!
Bitte um Korrektur: Im Text steht „Bilder im Format PDF, GIF, PNG, JPEG oder JPG“. Aber ein PDF ist kein Bild, sondern dort können Bilder eingebettet werden, was manche ausschließlich dafür missbrauchen wie auch Vektorgrafiken (was ich in LaTeX zwar praktisch finde, aber laut Prof. vom bösen Adobe ist, obwohl dort in der Uni fast alles von Microsoft genutzt wird wie auch Sharepoint usw.). Da hier in der Leserschaft dies vermutlich nicht alle wissen, sollte man explizit „und Bilder in PDF-Dokumenten“ sagen.
Das ganze jetzt noch per Befehlszeile aufrufbar zum automatischen analysieren von Dateien wäre ein Traum.
https://opensource.google/projects/tesseract
Danke Uwe, bei meinem Aufruf lag hinter der URL leider kein Projekt mehr, allerdings bin ich hier fündig geworden:
https://github.com/tesseract-ocr/tesseract
Kann man das irgendwie „kaufen“ auch wenn man noch mit 10.14 unterwegs ist?