Forum: Offtopic OCR-PDFs in epub umwandeln

von Benito P. (benito_juarez)

04.05.2018 09:51

Angehängte Dateien:

Against-Tithing-John-Owen-80.pdf (2,25 MB) | anzeigen

Lesenswert?

•

Hallo, nebenbei lese ich gerne alte Bücher, viele sind lizenzfrei 
verfügbar, oder so habe ich mir auch eine DAtenbank an 
"searchables/indexed" pdfs gekauft. gerne würde ich ein paar davon auch 
mal auf meinem sony-reader lesen, aber calibre verweigert mir bisher 
eine saubere konvertierung. Kopiere ich den text aber mit copy paste in 
einen editor, geht das gut. So schwer kann das also für calibre auch 
nicht sein.
was mache ich falsch. ein beispielfile habe ich angehängt (ok das ist 
besonders hart, da es beidseitig geskannt ist, die meisten sind es 
einseitig, aber dann sind es größere werke, und ich wollte nichts großes 
hier hochladen)

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: OCR-PDFs in epub umwandeln

von Matthias L. (limbachnet)

04.05.2018 10:55

Lesenswert?

•

▲
▼

Was genau stört denn am Calibre-Ergebnis?

Vorab: So richtig schön habe ich PDF -> Epub für den Sony auch noch 
nicht hinbekommen, habe aber auch nicht wirklich Zeit 'reingesteckt.

Häufige Nervereies sind zu große Seitenränder, dann muss das PDF vor dem 
Import beschnitten werden, dafür gibt's z.B. die Freeware "Briss".

Calibre macht beim Iport aus PDF erst mal HTML. Wenn darin 
übriggebliebene Seitennummern mitten im Text stören, dann kann die 
Arbeit mit Regulären Ausdrücken dabei hilfreich sein - damit kann man 
viel anstellen, wenn man weiß, wie das geht. ich kratze da nur ganz an 
der Oberfläche, mit einer Suchmaschine der Wahl findet man aber viele 
Tipps.

Diese Zwischen-HTML-Datei lässt sich mit "Sigil" weiter fein tunen.

Aber ich fürchte, eine Fingerschnipp-Lösung gibt's nicht wirklich.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: OCR-PDFs in epub umwandeln

von Benito P. (benito_juarez)

04.05.2018 10:57

Lesenswert?

•

▲
▼

ne, was calibre bei mir macht, dass die einzelnen seiten als bilder 
angelegt werden...und hinten noch ein index, fertig....da ist nichts mit 
skalieren oder sowas drin...irgendwelche seitenzahlen mitten im text, 
würden mich daweniger stören

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: OCR-PDFs in epub umwandeln

von Matthias L. (limbachnet)

04.05.2018 11:10

Lesenswert?

•

▲
▼

Oh. Dann sind die gescannten Grafiken im PDF noch drin, der erkannte 
Text liegt nur darunter. Hm.

Ich weiß leider nicht, ob es da einen Tipp für das aktuelle Calibre 
gibt, meine Experimente sind eine Weile her. Ich musste dabei noch die 
PDFs mit einem externen OCR-Programm (Abbyy) nach HTML wandeln, dieses 
HTML habe ich dann nachbearbeitet und zum Schluss in Calibre importiert. 
War eine zähe Angelegenheit, aber ich denke, wenn man den Bogen erst 
einmal 'raus hat, dann wird's wohl gehen.

Einen Versuch würde ich mal mit dem Export der PDF als Nur-Text machen, 
das Ergebnis dann in Notepad++ oder auch in Word oder LibreOffice 
nachbearbeiten und dann in Calibre importieren. Dann ist zwar jegliches 
Original-Layout futsch, aber der Text sollte immerhin lesbar sein...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net