ich würde gerne eine größere pdf datei in ein word dokument einbinden. dazu wollte ich die pdf datei in word-datei umwandeln und dann einfügen. habe es bereits mit ein paar kleineren programmen ausprobiert, die ich beim googlen gefunden habe. doch die formatierung der pdf datei wurde ziemlich zerschoßen, so dass ich das ergebnis nicht wirklich nutzen konnte. kennt ihr einen guten freeware-konverter?
Die einzige wirklich zuverlässige Konvertierung von pdf nach irgendetwas geht den brute-force -Weg. Mit einer OCR (Texterkennungssoftware). Dabei wird die PDF-Datei in eine Bitmap gerendert, und die wird dann der OCR vorgeworfen. Hier zu empfehlen ist der Abbyy Finereader, der macht das recht gut.
Wollte auch gerade den Abby Finereader empfehlen. Ist allgemein für OCR zu empfehlen. Basiert OCR denn ganz simpel auf der Brute Force Methode?
@Anfänger Die "Brute Force Methode" ist hier eher ein Wortspiel. Im allgemeinen wird der Begriff für verschiedene Methoden verwendet, bei denen eine eigentliche Berechnung eines Ergebnisses durch Ausprobieren von verschiedenen (und sehr vielen möglichen Lösungen) ersetzt wird. Dies ist dann der Fall wenn eine Berechnung der Lösung garnicht oder nur mit sehr viel mehr Aufwand möglich ist. Ein Beispiel ist die Entschlüsselung von per DES verschlüsselten Nachrichten für die es (bisher) keine Lösung gibt. Daher probiert man einfach alle Schlüssel aus. Deswegen auch "brutale Kraft". Keine Intelligenz, sozusagen. In dem vorliegenden Fall, gibt es keine einfache Lösung, wenn man kein Programm hat um PDF zu editieren oder wenn das PDF aus Bildern mit dem Text besteht. Deswegen die "Brute Force"-Methode, das Ding einfach wieder durch eine Texterkennung zu jagen. Es gibt keine sogenannte Brute-Force-Methode bei der OCR. Gruss Skeptiker
Koffice kann recht gut pdf einlesen. Damit kannst du es mal probieren bevor du ein OCR-Programm kaufst. Die Datei kann man dann wenn gewünscht als OOo-Dokument abspeichern, dann mit OOo einlesen und als Word-doc abspeichern.
Das Einlesen von PDF-Dateien durch inhaltliche Analyse ist das Grundproblem, da nicht jede PDF-Datei eine inhaltliche Struktur aufweist, anhand derer der Textfluss oder das Layout erkennbar ist. Ein schönes Beispiel sind mehrspaltige Dokumente, bei denen reine Text-Extrakteure sich lange Zeilen zusammenbasteln, die über mehrere Spalten reichen ... und entsprechend unlesbar sind. Zudem gibt es PDF-Dateien, die keinen Text, sondern gescannte Graphiken enthalten - oder eine Mischung aus beidem. Bei denen scheitern Text-Extrakteure erst recht.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.