Hallo, nebenbei lese ich gerne alte Bücher, viele sind lizenzfrei verfügbar, oder so habe ich mir auch eine DAtenbank an "searchables/indexed" pdfs gekauft. gerne würde ich ein paar davon auch mal auf meinem sony-reader lesen, aber calibre verweigert mir bisher eine saubere konvertierung. Kopiere ich den text aber mit copy paste in einen editor, geht das gut. So schwer kann das also für calibre auch nicht sein. was mache ich falsch. ein beispielfile habe ich angehängt (ok das ist besonders hart, da es beidseitig geskannt ist, die meisten sind es einseitig, aber dann sind es größere werke, und ich wollte nichts großes hier hochladen)
Was genau stört denn am Calibre-Ergebnis? Vorab: So richtig schön habe ich PDF -> Epub für den Sony auch noch nicht hinbekommen, habe aber auch nicht wirklich Zeit 'reingesteckt. Häufige Nervereies sind zu große Seitenränder, dann muss das PDF vor dem Import beschnitten werden, dafür gibt's z.B. die Freeware "Briss". Calibre macht beim Iport aus PDF erst mal HTML. Wenn darin übriggebliebene Seitennummern mitten im Text stören, dann kann die Arbeit mit Regulären Ausdrücken dabei hilfreich sein - damit kann man viel anstellen, wenn man weiß, wie das geht. ich kratze da nur ganz an der Oberfläche, mit einer Suchmaschine der Wahl findet man aber viele Tipps. Diese Zwischen-HTML-Datei lässt sich mit "Sigil" weiter fein tunen. Aber ich fürchte, eine Fingerschnipp-Lösung gibt's nicht wirklich.
ne, was calibre bei mir macht, dass die einzelnen seiten als bilder angelegt werden...und hinten noch ein index, fertig....da ist nichts mit skalieren oder sowas drin...irgendwelche seitenzahlen mitten im text, würden mich daweniger stören
Oh. Dann sind die gescannten Grafiken im PDF noch drin, der erkannte Text liegt nur darunter. Hm. Ich weiß leider nicht, ob es da einen Tipp für das aktuelle Calibre gibt, meine Experimente sind eine Weile her. Ich musste dabei noch die PDFs mit einem externen OCR-Programm (Abbyy) nach HTML wandeln, dieses HTML habe ich dann nachbearbeitet und zum Schluss in Calibre importiert. War eine zähe Angelegenheit, aber ich denke, wenn man den Bogen erst einmal 'raus hat, dann wird's wohl gehen. Einen Versuch würde ich mal mit dem Export der PDF als Nur-Text machen, das Ergebnis dann in Notepad++ oder auch in Word oder LibreOffice nachbearbeiten und dann in Calibre importieren. Dann ist zwar jegliches Original-Layout futsch, aber der Text sollte immerhin lesbar sein...
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.