Forum: Offtopic OCR-PDFs in epub umwandeln


von Benito P. (benito_juarez)


Angehängte Dateien:

Lesenswert?

Hallo, nebenbei lese ich gerne alte Bücher, viele sind lizenzfrei 
verfügbar, oder so habe ich mir auch eine DAtenbank an 
"searchables/indexed" pdfs gekauft. gerne würde ich ein paar davon auch 
mal auf meinem sony-reader lesen, aber calibre verweigert mir bisher 
eine saubere konvertierung. Kopiere ich den text aber mit copy paste in 
einen editor, geht das gut. So schwer kann das also für calibre auch 
nicht sein.
was mache ich falsch. ein beispielfile habe ich angehängt (ok das ist 
besonders hart, da es beidseitig geskannt ist, die meisten sind es 
einseitig, aber dann sind es größere werke, und ich wollte nichts großes 
hier hochladen)

von Matthias L. (limbachnet)


Lesenswert?

Was genau stört denn am Calibre-Ergebnis?

Vorab: So richtig schön habe ich PDF -> Epub für den Sony auch noch 
nicht hinbekommen, habe aber auch nicht wirklich Zeit 'reingesteckt.

Häufige Nervereies sind zu große Seitenränder, dann muss das PDF vor dem 
Import beschnitten werden, dafür gibt's z.B. die Freeware "Briss".

Calibre macht beim Iport aus PDF erst mal HTML. Wenn darin 
übriggebliebene Seitennummern mitten im Text stören, dann kann die 
Arbeit mit Regulären Ausdrücken dabei hilfreich sein - damit kann man 
viel anstellen, wenn man weiß, wie das geht. ich kratze da nur ganz an 
der Oberfläche, mit einer Suchmaschine der Wahl findet man aber viele 
Tipps.

Diese Zwischen-HTML-Datei lässt sich mit "Sigil" weiter fein tunen.

Aber ich fürchte, eine Fingerschnipp-Lösung gibt's nicht wirklich.

von Benito P. (benito_juarez)


Lesenswert?

ne, was calibre bei mir macht, dass die einzelnen seiten als bilder 
angelegt werden...und hinten noch ein index, fertig....da ist nichts mit 
skalieren oder sowas drin...irgendwelche seitenzahlen mitten im text, 
würden mich daweniger stören

von Matthias L. (limbachnet)


Lesenswert?

Oh. Dann sind die gescannten Grafiken im PDF noch drin, der erkannte 
Text liegt nur darunter. Hm.

Ich weiß leider nicht, ob es da einen Tipp für das aktuelle Calibre 
gibt, meine Experimente sind eine Weile her. Ich musste dabei noch die 
PDFs mit einem externen OCR-Programm (Abbyy) nach HTML wandeln, dieses 
HTML habe ich dann nachbearbeitet und zum Schluss in Calibre importiert. 
War eine zähe Angelegenheit, aber ich denke, wenn man den Bogen erst 
einmal 'raus hat, dann wird's wohl gehen.

Einen Versuch würde ich mal mit dem Export der PDF als Nur-Text machen, 
das Ergebnis dann in Notepad++ oder auch in Word oder LibreOffice 
nachbearbeiten und dann in Calibre importieren. Dann ist zwar jegliches 
Original-Layout futsch, aber der Text sollte immerhin lesbar sein...

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.