Wir würden gerne unsere Eingangsbelege halbautomatisch via OCR erfassen. Deshalb habe ich mich nach den OCR-Möglichkeiten unter Linux umgeschaut.
Es gibt zwar einige Software (gocr, ocrad, tesseract) die leide jedoch schon relativ alt und nicht mehr auf dem aktuellen Stand der Technik ist. Ocrad hat den Vorteil, dass es immerhin auch deutschen Text (d.h. auch Umlaute) erkennen kann. Das kann mein aktueller Favorit – tesseract – leider noch nicht. Ansonsten scheint tesseract aber die genausten Ergebnisse zu liefern.
Und jetzt die gute Nachricht: Google hat sich vor kurzem der Weiterentwicklung von tesseract angenommen: Tesseract wird zu Google-Code umgezogen (Projektseite) und für das Wochenende (21.7.) ist die Version 2.0 – welche unter anderem auch Deutsch unterstützt – angekündigt. Ich gespannt auf die Verbesserungen.