Hallo :) Ich habe versucht, das Anliegen schon im Titel zu beschreiben. Ausgangspunkt: Eine digitale Bibliothek mit annähernd 300 Studien- und Diplomarbeiten, Dissertationen und anderen wissenschaftlichen Arbeiten, Umfang pro Band im Schnitt 150 Seiten. Die Arbeiten (die meisten wurden vor 1990 erstellt) enthalten zum Großteil Text, zumeist mit Schreibmaschine geschrieben. Der Text ist ab und an durch Diagramme oder Formeln unterbrochen. Ganz selten sind auch mal Bilder dabei. Die Arbeiten lagen im Original oder als gute Kopie vor und wurden mit einem Hochleistungsscanner mit Einzelblatteinzug digitalisiert. Jede Arbeit besteht aus einer PDF-Datei, in der die einzelnen Seiten als Bild eingebunden sind. Was wir nun benötigen würden, wäre ein Tool, das die einzelnen Seiten untersucht und versucht, die Textblöcke mittels OCR zu erkennen. Es soll dann eine neue PDF-Datei erzeugt werden, die die Textblöcke enthält, und die Diagramme und Bilder entsprechend dazwischen einfügt. Die Anforderung wäre, dass das Programm ohne Interaktion auskommt (Kommandozeile). Am schönsten wäre es, wenn das ganze auf unserem Server (Ubuntu Linux) im Hintergrund ablaufen könnte, so dass keine Arbeitszeit gebunden wird. Vielleicht hat ja schon jemand eine ähnliche Aufgabe gelöst.
Stichwort "OCR" Da gibt es diverse Programme. Allerdings ist ein nachträgliches Korrekturlesen immer sehr sinnvoll. Selbst wenn sie eine sehr hohe Erkennrate haben, entspricht das, was sie erkannt haben nicht unbedingt dem, was da so steht...
Hallo Gerhard ganz ohne einarbeitung der OCR Software wird es wohl nicht laufen, d.h. die Software muss ersteinmal die jewilige Schreibmaschienenschrift sicher erkennen können. Wie ist den die Qualität der Scanergebnisse ? Du sagst gut, aber das Gehirn hat immer noch die beste OCR "Software" und Schreibmaschinen Texte waren auch schon im Orginal nicht immer 100% sauber, z.b. kann ein Mensch ohne Probleme ein u von einen o unterscheiden auch wenn der obere Bereich des o dünn und nur schwach erkennbar sein sollte, ob das aber die OCR Software kann wage ich zu bezweifeln vor allem wenn die einzelnen Buchstaben mal in guter und mal in schlechter Qualität vorliegen. Eventuell kann in zusammenarbeit mit einen guten Textverarbeitungssystem das Problem gelöst werden welches "automatisch" erkennt das es sich bei den Wort "Autu" doch ehr um das Wort "Auto" handeln wird. Aber was ist jetzt mit den Wort "Mond", richtig, oder handelt es sich jetzt um das Wort "Mund" ? Für den Menschen kein Problem er erkennt das aus den Kontext ohne Problem heraus aber soweit ich weis hat Software generell Problem wenn es darum geht einen Kontext zu erkennen (ausser wohl bei engbegrenzten Spezialbereichen). Zusammengefasst: Ohne Interaktion glaube ich wird das nicht funktionieren, evtl. für die jeweilige einzelne Studien- und Diplomarbeit aber schon bei den nähsten Beitrag (welcher ja sehr wahrscheinlich mit einer anderen Schreibmaschine erstellt wurde) werden Bestätigungen und Korrekturen notwendig sein (=> neues einlehrnen der OCR Software). Sollte hier jemand aus den professionellen Bereich sein der sagt das ich totalen Quatsch erzähle und das auch belegen kann, würde mich das freuen da ich selber hier viele Scans habe welche als Text einige wichtige Vorteile bieten würden (Suchfunktionen etc.) mfg Achim
Hallo, warum nutzt DU nicht gleich eine Software die eine PDF Datei in Text und Bilder "zerlegen" kann? Ciao Hans
Gute OCR-Software bleibt bei der Zeichenerkennung nicht stehen, sondern arbeitet "nach Hinten raus" mit umfangreichen Wortbibliotheken und sogar syntaktischer Satzanlyse, um bei unklaren oder mehrdeutigen Erkennungsergebnissen das Richtige herauszufinden. Ich habe gute Erfahrung mit OmniPage Pro (gibts für Mac und Win) gemacht, ist allerdings nicht ganz billig. Acrobat Pro (zur PDF-Erstellung sowieso nötig**) enthält auch ein OCR-Modul, allerdings kenne ich dessen Leistungsfähigkeit nicht. Es gibt auch das OpenSource-Projekt "Tesseract", wird bei Google gepflegt und hat ganz gute Erkennungsleistungen. Allerdings ist das Anlernen von neuen Schriften - bei kommerziellen Produkten mit ein par Klicks zu erledigen - mit Tesseract ein unglaublicher Krampf ... ** klar gibt es zahllose kostenlose PDF-Generatoren oder Libs, aber wenn man ein solch großes Archiv anlegt, sollte man sich unbedingt mit den gängigen PDF/A-Standards für Archivierung befassen!!!
Frank Esselbach schrieb: > Ich habe gute Erfahrung mit OmniPage Pro (gibts für Mac und Win) > gemacht, ist allerdings nicht ganz billig. Acrobat Pro (zur > PDF-Erstellung sowieso nötig**) enthält auch ein OCR-Modul, allerdings > kenne ich dessen Leistungsfähigkeit nicht. ... und den Abby FineReader kann man auch in dieser Liste führen.
Wenn auch kommerziell, und nicht gerade kostengünstig, so ist in diesem Kontext doch auch die Adobe-eigene OCR zu erwähnen. Diese bietet die reizvolle Funktion, den erkannten Text hinter die Graphik zu legen, so daß das Original angezeigt wird, aber eine Volltextsuche und Textextraktion dennoch möglich sind, und bei Texterkennungsfehlern das Original auch weiterhin zur Verfügung steht.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.