Forum: PC Hard- und Software Korrupte PDF-Dateien kurieren


von Kurt Kaminski (Gast)


Lesenswert?

Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt 
dieser an, sehe ich etwas wie

el a b i aa r o u n dt

oder

er wßte ds er heute

Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem 
sichtbaren Text entspricht?

von Der Andere (Gast)


Lesenswert?

In einem PDF steht der Text nicht mehr unbedingt zusammenhängend drin. 
Theoretisch kann da jeder Buchstabe für sich stehen, jeweils mit der 
Angabe an welcher Position bezogen auf den Seiteneckpunkt er steht. 
Üblicherseise stehen da allerdings eher einzelne Worte oder Absätze.
Weiter muss der verwendete Zeichensatz im PDF nicht dem 
Windowszeichensatz entsprechen.

Copy and Paste soll aus diesem Wust jetzt wieder einen Text 
zusammenbasteln. Das funktioniert halt mal besser und mal schlachter.

Abhilfe?

Eventuell eine OCR-Software über den Screenshot laufen lassen, eventuell 
gibt es auch PDF Viewer, die berreren Copy Support bieten.

von Der Andere (Gast)


Lesenswert?

Der Andere schrieb:
> berreren

soll natürlich "besseren" heissen, sorry.

von c. m. (Gast)


Lesenswert?

eventuell garnicht, oder nur näherungsweise.
was du auf einem PDF als wort, satz oder dergleiche zu erkennen glaubst 
sind nichts als objekte die auf einer seite plaziert wurden.
das können ganze wort- oder satz-strings sein, oder auch 
"hintereinander" platzierte buchstaben mit jeweils eigenen 
x/y-koodinaten.

anstatt copy&paste könntest du versuchen den text mit einem tool zu 
extrahieren. ich verwende z.b. iText (java/c#) um PDF's zu manipulieren.
textextraktion sieht dann ungefähr so aus (kurz gegoogelt):
https://stackoverflow.com/questions/8821107/pdf-text-extraction-using-itext

von Soul E. (Gast)


Lesenswert?

Kurt Kaminski schrieb:

> Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem
> sichtbaren Text entspricht?

Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals? 
Solche Scans liegen zunächst als TIF-Dateien vor und werden über Adobe 
Acrobat in pdf gewandelt. Dabei erfolgt eine automatische Texterkennung 
(OCR), dieser erkannte Text liegt unsichtbar hinter der Bilddatei. Beim 
Kopieren nimmst Du eben diesen Text mit. Und der OCR ist 
grottenschlecht.

von Christoph db1uq K. (christoph_kessler)


Lesenswert?

https://wiki.ubuntuusers.de/gscan2pdf/
das ist ähnlich dem genannten Adobe-Programm. Funktioniert auch eher 
schlecht und benutzt tesseract als OCR-Software.

von Walter T. (nicolas)


Lesenswert?

soul e. schrieb:
> Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals?

Solche PDFs entstehen sehr leicht mit LaTeX, wenn sie über den "alten" 
Weg mit Postscript erzeugt wurden und nicht extra für Online-Nutzung, 
sondern für den Ausdruck optimiert sind.

Hintergrund ist der, daß tatsächlich einzelne Buchstabengruppen, die 
kleiner als ein Wort sind, einzeln positioniert sind, um das Kerning 
perfekt hinzubekommen. Wird das Package "hyperref" geladen, sind die 
erzeugten Dokumente automatische richtig fürs Web aufbereitet (und der 
Ausdruck [siehe Kerning]) leicht schlechter.

von Stefan F. (Gast)


Lesenswert?

In solchen Fällen konnte ich das Problem mit Libreoffice meistens lösen. 
PDF in Libreoffice öffnen, Text kopieren und dann in eine neue leere 
Textdatei einfügen.

von Sebastian S. (amateur)


Lesenswert?

Es gibt einen ganzen Sack voll Programme, die die Texte oder auch 
Bilder, aus einem PDF extrahieren können.

Aber keines davon ist hellseherisch veranlagt.
Also wie schon "Der Andere" angedeutet hat, kann man einen Text auch 
bunt gemischt schreiben und dann die "Buchstaben" so platzieren, dass 
sie wie Wörter aussehen.
Auch rund um die, ach so tollen 16-Bit, Zeichensätze gibt es einige 
versteckte Überraschungen. Nach dem Motto: Es sieht zwar nach ASCII aus, 
ist es aber nicht.
Last, but not least, kannst Du auch eine Grafik erwischen, die wie Text 
aussieht.

von Walter T. (nicolas)


Lesenswert?

Sebastian S. schrieb:
> Aber keines davon ist hellseherisch veranlagt.

Naja, es gibt schon ein paar einfache Merkmale, woran man erkennt, woher 
der Zwischenablagen-Müll kommt. Wenn vor allen Dingen die Ligaturen (fl, 
fi, ff, ij ...) fehlen, ist des das obengenannte Postscript-Problem.

von Rufus Τ. F. (rufus) Benutzerseite


Lesenswert?

Schon lange gibt es OCR-Software, die direkt auch PDF-Dateien verdauen 
kann, der "FineReader" von Abbyy ist ein Beispiel dafür.

von (º°)·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.· (Gast)


Lesenswert?

> Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt
> dieser an, sehe ich etwas wie
> el a b i aa r o u n dt
> oder
> er wßte ds er heute

Diese PDFs sind nicht korrupt sondern von dir nur unverstanden.

Im PDF steht: Zeichne das Objekt 'el' an die Position x1,y1,
zeichne das Objekt 'a' an die Position x2,y2 ...
Die Position ergibt sich aus typographischen Erwaegungen.

Um eine Textsuche zu ermoeglichen, koennen PDF-Dateien
auch eine 'lesbare' Interpretation dieser Daten in einem
ueblichen Zeichensatz enthalten.

Ein PDF ohne diese Zusatzinformationen ist aber nicht korrupt.

von Elo (Gast)


Lesenswert?

Und wie bekommt man nun wirklich korrupte PDF-Dateien wieder anzeig- 
oder lesbar?
Da gibt es Onlineseiten die das angeblich können, nur wenn ich die Datei 
nicht mal geöffnet bekomme, wegen glaube ich CRC-Fehler, hat die sich 
wohl auf der HDD etwas verhaspelt?
Also als Datei beschädigt?

von Abdul K. (ehydra) Benutzerseite


Lesenswert?

PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden 
Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen 
nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind, 
sollte sich der Rest weitgehend restaurieren lassen.
Bei echtem Postscript sieht es dagegen ziemlich mau aus.
Ein passendes Tool kenn ich nicht. Wirds aber sicher geben.


Solange es noch druckbar ist, kann man es einfach wieder einscannen.

von (º°)·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.· (Gast)


Lesenswert?

Eine Zeichnung eines Architekturbueros eines Fabrikgebaeudes mit
ca. 70 Layern bringt den aktuellen Acrobat als auch den Reader
beim Drucken in die Knie.

Ein steinalter Foxit-Reader 3.01 aus dem Jahr 2008 schafft es aber
trotzdem :-)

Vielleicht sollte die Firma mal einige Justierungen an ihren
Produkten vornehmen...

von Elo (Gast)


Lesenswert?

Abdul K. schrieb:
> PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden
> Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen
> nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind,
> sollte sich der Rest weitgehend restaurieren lassen.
> Bei echtem Postscript sieht es dagegen ziemlich mau aus.
> Ein passendes Tool kenn ich nicht. Wirds aber sicher geben.
>
>
> Solange es noch druckbar ist, kann man es einfach wieder einscannen.

War deine ausführliche Erklärung mir geschuldet?
Es handelte sich aber nur um eine relativ einfache A4 Seite. Ein 
Paketschein von DHL ließ sich nicht mehr einlesen / öffnen. Denn da 
steht dann auch die Sendungs-ID drauf, so ein Mist aber auch.

von Elo (Gast)


Lesenswert?

Kurt Kaminski schrieb:
> Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt
> dieser an, sehe ich etwas wie
>
> el a b i aa r o u n dt
>
> oder
>
> er wßte ds er heute
>
> Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem
> sichtbaren Text entspricht?

So eine Zahlen- und Buchstabensalat hatte ich auch erst kürzlich mit 
einem PDF-Viewer.
Über das Firefox-Plugin sah der Trext dann aber wirklich sauber und gut 
aus.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.