mikrocontroller.net

Forum: PC Hard- und Software Software gesucht, um gescannte PDFs in Text-PDFs zu verwandeln


Autor: Gerhard (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo :) Ich habe versucht, das Anliegen schon im Titel zu beschreiben.

Ausgangspunkt: Eine digitale Bibliothek mit annähernd 300 Studien- und 
Diplomarbeiten, Dissertationen und anderen wissenschaftlichen Arbeiten, 
Umfang pro Band im Schnitt 150 Seiten.

Die Arbeiten (die meisten wurden vor 1990 erstellt) enthalten zum 
Großteil Text, zumeist mit Schreibmaschine geschrieben. Der Text ist ab 
und an durch Diagramme oder Formeln unterbrochen. Ganz selten sind auch 
mal Bilder dabei. Die Arbeiten lagen im Original oder als gute Kopie vor 
und wurden mit einem Hochleistungsscanner mit Einzelblatteinzug 
digitalisiert.

Jede Arbeit besteht aus einer PDF-Datei, in der die einzelnen Seiten als 
Bild eingebunden sind.

Was wir nun benötigen würden, wäre ein Tool, das die einzelnen Seiten 
untersucht und versucht, die Textblöcke mittels OCR zu erkennen. Es soll 
dann eine neue PDF-Datei erzeugt werden, die die Textblöcke enthält, und 
die Diagramme und Bilder entsprechend dazwischen einfügt.

Die Anforderung wäre, dass das Programm ohne Interaktion auskommt 
(Kommandozeile). Am schönsten wäre es, wenn das ganze auf unserem Server 
(Ubuntu Linux) im Hintergrund ablaufen könnte, so dass keine Arbeitszeit 
gebunden wird.

Vielleicht hat ja schon jemand eine ähnliche Aufgabe gelöst.

Autor: Tobi (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Stichwort "OCR"
Da gibt es diverse Programme. Allerdings ist ein nachträgliches 
Korrekturlesen immer sehr sinnvoll. Selbst wenn sie eine sehr hohe 
Erkennrate haben, entspricht das, was sie erkannt haben nicht unbedingt 
dem, was da so steht...

Autor: Achim (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo Gerhard
ganz ohne einarbeitung der OCR Software wird es wohl nicht laufen, d.h. 
die Software muss ersteinmal die jewilige Schreibmaschienenschrift 
sicher erkennen können.
Wie ist den die Qualität der Scanergebnisse ? Du sagst gut, aber das 
Gehirn hat immer noch die beste OCR "Software" und Schreibmaschinen 
Texte waren auch schon im Orginal nicht immer 100% sauber, z.b. kann ein 
Mensch ohne Probleme ein u von einen o unterscheiden auch wenn der obere 
Bereich des o dünn und nur schwach erkennbar sein sollte, ob das aber 
die OCR Software kann wage ich zu bezweifeln vor allem wenn die 
einzelnen Buchstaben mal in guter und mal in schlechter Qualität 
vorliegen.
Eventuell kann in zusammenarbeit mit einen guten Textverarbeitungssystem 
das Problem gelöst werden welches "automatisch" erkennt das es sich bei 
den Wort "Autu" doch ehr um das Wort "Auto" handeln wird. Aber was ist 
jetzt mit den Wort "Mond", richtig, oder handelt es sich jetzt um das 
Wort "Mund" ? Für den Menschen kein Problem er erkennt das aus den 
Kontext ohne Problem heraus aber soweit ich weis hat Software generell 
Problem wenn es darum geht einen Kontext zu erkennen (ausser wohl bei 
engbegrenzten Spezialbereichen).
Zusammengefasst: Ohne Interaktion glaube ich wird das nicht 
funktionieren, evtl. für die jeweilige einzelne Studien- und 
Diplomarbeit aber schon bei den nähsten Beitrag (welcher ja sehr 
wahrscheinlich mit einer anderen Schreibmaschine erstellt wurde) werden 
Bestätigungen und Korrekturen notwendig sein (=> neues einlehrnen der 
OCR Software).
Sollte hier jemand aus den professionellen Bereich sein der sagt das ich 
totalen Quatsch erzähle und das auch belegen kann, würde mich das freuen 
da ich selber hier viele Scans habe welche als Text einige wichtige 
Vorteile bieten würden (Suchfunktionen etc.)

mfg

     Achim

Autor: Hans Fanic (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo,

warum nutzt DU nicht gleich eine Software die eine PDF Datei in Text und 
Bilder "zerlegen" kann?

Ciao Hans

Autor: Frank Esselbach (Firma: Q3) (qualidat)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Gute OCR-Software bleibt bei der Zeichenerkennung nicht stehen, sondern 
arbeitet "nach Hinten raus" mit umfangreichen Wortbibliotheken und sogar 
syntaktischer Satzanlyse, um bei unklaren oder mehrdeutigen 
Erkennungsergebnissen das Richtige herauszufinden.

Ich habe gute Erfahrung mit OmniPage Pro (gibts für Mac und Win) 
gemacht, ist allerdings nicht ganz billig. Acrobat Pro (zur 
PDF-Erstellung sowieso nötig**) enthält auch ein OCR-Modul, allerdings 
kenne ich dessen Leistungsfähigkeit nicht.

Es gibt auch das OpenSource-Projekt "Tesseract", wird bei Google 
gepflegt und hat ganz gute Erkennungsleistungen. Allerdings ist das 
Anlernen von neuen Schriften - bei kommerziellen Produkten mit ein par 
Klicks zu erledigen - mit Tesseract ein unglaublicher Krampf ...

** klar gibt es zahllose kostenlose PDF-Generatoren oder Libs, aber wenn 
man ein solch großes Archiv anlegt, sollte man sich unbedingt mit den 
gängigen PDF/A-Standards für Archivierung befassen!!!

Autor: Frank K. (fchk)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Frank Esselbach schrieb:

> Ich habe gute Erfahrung mit OmniPage Pro (gibts für Mac und Win)
> gemacht, ist allerdings nicht ganz billig. Acrobat Pro (zur
> PDF-Erstellung sowieso nötig**) enthält auch ein OCR-Modul, allerdings
> kenne ich dessen Leistungsfähigkeit nicht.

... und den Abby FineReader kann man auch in dieser Liste führen.

Autor: Rufus Τ. Firefly (rufus) (Moderator) Benutzerseite
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Wenn auch kommerziell, und nicht gerade kostengünstig, so ist in diesem 
Kontext doch auch die Adobe-eigene OCR zu erwähnen. Diese bietet die 
reizvolle Funktion, den erkannten Text hinter die Graphik zu legen, so 
daß das Original angezeigt wird, aber eine Volltextsuche und 
Textextraktion dennoch möglich sind, und bei Texterkennungsfehlern das 
Original auch weiterhin zur Verfügung steht.

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.
Hinweis: der ursprüngliche Beitrag ist mehr als 6 Monate alt.
Bitte hier nur auf die ursprüngliche Frage antworten,
für neue Fragen einen neuen Beitrag erstellen.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.