Forum: PC Hard- und Software Software gesucht, um gescannte PDFs in Text-PDFs zu verwandeln


von Gerhard (Gast)


Lesenswert?

Hallo :) Ich habe versucht, das Anliegen schon im Titel zu beschreiben.

Ausgangspunkt: Eine digitale Bibliothek mit annähernd 300 Studien- und 
Diplomarbeiten, Dissertationen und anderen wissenschaftlichen Arbeiten, 
Umfang pro Band im Schnitt 150 Seiten.

Die Arbeiten (die meisten wurden vor 1990 erstellt) enthalten zum 
Großteil Text, zumeist mit Schreibmaschine geschrieben. Der Text ist ab 
und an durch Diagramme oder Formeln unterbrochen. Ganz selten sind auch 
mal Bilder dabei. Die Arbeiten lagen im Original oder als gute Kopie vor 
und wurden mit einem Hochleistungsscanner mit Einzelblatteinzug 
digitalisiert.

Jede Arbeit besteht aus einer PDF-Datei, in der die einzelnen Seiten als 
Bild eingebunden sind.

Was wir nun benötigen würden, wäre ein Tool, das die einzelnen Seiten 
untersucht und versucht, die Textblöcke mittels OCR zu erkennen. Es soll 
dann eine neue PDF-Datei erzeugt werden, die die Textblöcke enthält, und 
die Diagramme und Bilder entsprechend dazwischen einfügt.

Die Anforderung wäre, dass das Programm ohne Interaktion auskommt 
(Kommandozeile). Am schönsten wäre es, wenn das ganze auf unserem Server 
(Ubuntu Linux) im Hintergrund ablaufen könnte, so dass keine Arbeitszeit 
gebunden wird.

Vielleicht hat ja schon jemand eine ähnliche Aufgabe gelöst.

von Tobi (Gast)


Lesenswert?

Stichwort "OCR"
Da gibt es diverse Programme. Allerdings ist ein nachträgliches 
Korrekturlesen immer sehr sinnvoll. Selbst wenn sie eine sehr hohe 
Erkennrate haben, entspricht das, was sie erkannt haben nicht unbedingt 
dem, was da so steht...

von Achim (Gast)


Lesenswert?

Hallo Gerhard
ganz ohne einarbeitung der OCR Software wird es wohl nicht laufen, d.h. 
die Software muss ersteinmal die jewilige Schreibmaschienenschrift 
sicher erkennen können.
Wie ist den die Qualität der Scanergebnisse ? Du sagst gut, aber das 
Gehirn hat immer noch die beste OCR "Software" und Schreibmaschinen 
Texte waren auch schon im Orginal nicht immer 100% sauber, z.b. kann ein 
Mensch ohne Probleme ein u von einen o unterscheiden auch wenn der obere 
Bereich des o dünn und nur schwach erkennbar sein sollte, ob das aber 
die OCR Software kann wage ich zu bezweifeln vor allem wenn die 
einzelnen Buchstaben mal in guter und mal in schlechter Qualität 
vorliegen.
Eventuell kann in zusammenarbeit mit einen guten Textverarbeitungssystem 
das Problem gelöst werden welches "automatisch" erkennt das es sich bei 
den Wort "Autu" doch ehr um das Wort "Auto" handeln wird. Aber was ist 
jetzt mit den Wort "Mond", richtig, oder handelt es sich jetzt um das 
Wort "Mund" ? Für den Menschen kein Problem er erkennt das aus den 
Kontext ohne Problem heraus aber soweit ich weis hat Software generell 
Problem wenn es darum geht einen Kontext zu erkennen (ausser wohl bei 
engbegrenzten Spezialbereichen).
Zusammengefasst: Ohne Interaktion glaube ich wird das nicht 
funktionieren, evtl. für die jeweilige einzelne Studien- und 
Diplomarbeit aber schon bei den nähsten Beitrag (welcher ja sehr 
wahrscheinlich mit einer anderen Schreibmaschine erstellt wurde) werden 
Bestätigungen und Korrekturen notwendig sein (=> neues einlehrnen der 
OCR Software).
Sollte hier jemand aus den professionellen Bereich sein der sagt das ich 
totalen Quatsch erzähle und das auch belegen kann, würde mich das freuen 
da ich selber hier viele Scans habe welche als Text einige wichtige 
Vorteile bieten würden (Suchfunktionen etc.)

mfg

     Achim

von Hans Fanic (Gast)


Lesenswert?

Hallo,

warum nutzt DU nicht gleich eine Software die eine PDF Datei in Text und 
Bilder "zerlegen" kann?

Ciao Hans

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Gute OCR-Software bleibt bei der Zeichenerkennung nicht stehen, sondern 
arbeitet "nach Hinten raus" mit umfangreichen Wortbibliotheken und sogar 
syntaktischer Satzanlyse, um bei unklaren oder mehrdeutigen 
Erkennungsergebnissen das Richtige herauszufinden.

Ich habe gute Erfahrung mit OmniPage Pro (gibts für Mac und Win) 
gemacht, ist allerdings nicht ganz billig. Acrobat Pro (zur 
PDF-Erstellung sowieso nötig**) enthält auch ein OCR-Modul, allerdings 
kenne ich dessen Leistungsfähigkeit nicht.

Es gibt auch das OpenSource-Projekt "Tesseract", wird bei Google 
gepflegt und hat ganz gute Erkennungsleistungen. Allerdings ist das 
Anlernen von neuen Schriften - bei kommerziellen Produkten mit ein par 
Klicks zu erledigen - mit Tesseract ein unglaublicher Krampf ...

** klar gibt es zahllose kostenlose PDF-Generatoren oder Libs, aber wenn 
man ein solch großes Archiv anlegt, sollte man sich unbedingt mit den 
gängigen PDF/A-Standards für Archivierung befassen!!!

von Frank K. (fchk)


Lesenswert?

Frank Esselbach schrieb:

> Ich habe gute Erfahrung mit OmniPage Pro (gibts für Mac und Win)
> gemacht, ist allerdings nicht ganz billig. Acrobat Pro (zur
> PDF-Erstellung sowieso nötig**) enthält auch ein OCR-Modul, allerdings
> kenne ich dessen Leistungsfähigkeit nicht.

... und den Abby FineReader kann man auch in dieser Liste führen.

von Rufus Τ. F. (rufus) Benutzerseite


Lesenswert?

Wenn auch kommerziell, und nicht gerade kostengünstig, so ist in diesem 
Kontext doch auch die Adobe-eigene OCR zu erwähnen. Diese bietet die 
reizvolle Funktion, den erkannten Text hinter die Graphik zu legen, so 
daß das Original angezeigt wird, aber eine Volltextsuche und 
Textextraktion dennoch möglich sind, und bei Texterkennungsfehlern das 
Original auch weiterhin zur Verfügung steht.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.