Hallo, ich habe eine eingescannte PDF Datei, die recht gross ist (viel Text,wenig Bilder). Ich würde sie gerne "durchsuchbar" machen. Habt ihr eine Empfehlung für mich was ich aus dem opensource/freeware Bereich nehmen könnte? Win7 oder Linux erstmal egal Grüße
E-Techniker schrieb: > Habt ihr eine Empfehlung für mich was ich aus dem opensource/freeware > Bereich nehmen könnte? leider kein Opensource oder Freeware aber es gibt eine Test-Version http://finereader.abbyy.de/ (die Beste OCR die ich jemals getestet hatte)
http://www.devgeek.de/2011/04/29/debian-schrifterkennung-ocr-mit-tesseract/ Ergebnisse sind für gelegentlichen Einsatz ganz brauchbar.
Keiner Tipp. Immer nur eine Seite gleichzeitig analysieren lassen, sonst sinkt die Erkennungsquote bei allen Programmen gewaltig.
Christian Berger schrieb: > Keiner Tipp. Immer nur eine Seite gleichzeitig analysieren lassen, sonst > sinkt die Erkennungsquote bei allen Programmen gewaltig Warum sollte das so sein, alle Programme die ich bis jetzt getestet hatte haben eh jede Seite getrennt verarbeitet.
Ich werfe noch mal unbewertet Tesseract dazu: http://code.google.com/p/tesseract-ocr/ [Freeware!] Habe damit bisher nur einzelne Wörter verarbeitet, das aber erfolgreich.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.