Netz - Natur - Technik, Sprache
, , , , ,

OCR unter Linux – mit Tesseract, YAGF und XSane

TesseractIch weiß nicht, seit wann es geht, vermutlich geht es schon länger, aber zumindest ich merke es erst jetzt: Es geht! Funktionierende, praktikable Texterkennung unter Linux! Endlich! :freu: Also eine OCR (Optical Character Recognition = Texterkennung), bei der das Korrigieren des Textes nicht mehr Zeit in Anspruch nimmt als es gekostet hätte, ihn abzutippen!

Verfahrensweise (unter Ubuntu):

  1. Pakete tesseract-ocr, tesseract-ocr-deu, yagf (die GUI) und xsane (falls man letzteres nicht eh schon hatte) installieren – Pakete sind in den Standard-Repositorien.
  2. Buch uffen Scanner schmeißen.
  3. YAGF starten, dort intuitiv (Oberfläche lehnt sich an die vom ollen Windows-OmniPage an…) erfaßbare Knöpfen drücken.
  4. Text nachfeilen.

Oder für Kommandozeilen-Freaks eben nur Tesseract… Das war/ist für mich das Neue, also eine Linux-OCR, die brauchbare Ergebnisse liefert…

2 Kommentare

  1. Florian

    Wow, nicht schlecht, danke für den Tipp. tesseract ist sponsored by Google – die werden das wohl für ihre Buchscan-Projekte verwenden.

  2. Bestimmt. Zumal es auch Sprachpakete für verschiedenste Sprachen, auch viele in nicht-lateinischen Schriften, gibt. Sogar eines für Deutsch in Fraktur-Schrift. Da stecken mit Sicherheit Googles Bibliotheks-Plünderer dahinter… ;-) Na, wenn es denn auch segensreiche Ergebnisse zeitig. ;-)

    Ich habe das mit der Fraktur gerade mal ausprobiert – die Ergebnisse waren allerdings nicht gut, so wie früher mit GOCR bei einer normalen deutschen Vorlage in lateinischer Schrift. Allerdings war die Vorlage auch wirklich schwierig, und ich habe nicht weiter mit etwelchen Kommandozeilen-Optionen experimentiert.

    Edit: Gerade habe ich noch einen recht instruktiven Heise-Artikel dazu gefunden: „Toolbox: Texterkennung mit Tesseract OCR“. Die Vermutung mit Google Books wird erwartungsgemäß bestätigt, und es wird einem noch ein anderes Frontend empfohlen…

Antworten

:-) :-( ;-) :-D :übel: more »

rss Kommentare zu diesem Artikel als RSS-Feed