Forum: Offtopic PDF aus Scan und OCR: Text entfernen?


von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Wir haben von einem Kunden einige tausend PDF erhalten, die von einem 
(uns unbekannten) OCR-Programm aus gescannten TIFF erstellt wurden.

Leider war wohl das OCR nicht das Beste, denn es war z.B. nicht in der 
Lage bei mehrspaltigen Zeitungsartikeln die Spaltengrenzen zu erkennen, 
was u.a. bei silbengetrennten Worten die Volltextsuche unbrauchbar macht 
...

Die Originalscans sind nicht mehr verfügbar, nur die "verhunzten" PDF. 
Wie bekomme ich den schlechten Text dort raus?

Ein erneutes OCR würde ich mit Readiris 17 machen (das kann auch TIFF im 
PDF-Container verarbeiten), aber es lässt den alten Text drinnen, was 
andere Probleme macht ... Danke für Tips.

Ich könnte die PDF alle nochmal nach TIFF rendern, dabei geht aber die 
Verbindung zwischen den Seiten verloren, was zusätzlichen Aufwand 
bedeutet. Das würde ich nur machen, wenn es gar keinen anderen Weg gibt.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.