Forum: Offtopic PDF aus Scan und OCR: Text entfernen?

von Frank E. (Firma: Q3) (qualidat)

07.04.2021 10:27

Lesenswert?

•

Wir haben von einem Kunden einige tausend PDF erhalten, die von einem 
(uns unbekannten) OCR-Programm aus gescannten TIFF erstellt wurden.

Leider war wohl das OCR nicht das Beste, denn es war z.B. nicht in der 
Lage bei mehrspaltigen Zeitungsartikeln die Spaltengrenzen zu erkennen, 
was u.a. bei silbengetrennten Worten die Volltextsuche unbrauchbar macht 
...

Die Originalscans sind nicht mehr verfügbar, nur die "verhunzten" PDF. 
Wie bekomme ich den schlechten Text dort raus?

Ein erneutes OCR würde ich mit Readiris 17 machen (das kann auch TIFF im 
PDF-Container verarbeiten), aber es lässt den alten Text drinnen, was 
andere Probleme macht ... Danke für Tips.

Ich könnte die PDF alle nochmal nach TIFF rendern, dabei geht aber die 
Verbindung zwischen den Seiten verloren, was zusätzlichen Aufwand 
bedeutet. Das würde ich nur machen, wenn es gar keinen anderen Weg gibt.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net