mikrocontroller.net

Forum: PC Hard- und Software Korrupte PDF-Dateien kurieren


Autor: Kurt Kaminski (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt 
dieser an, sehe ich etwas wie

el a b i aa r o u n dt

oder

er wßte ds er heute

Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem 
sichtbaren Text entspricht?

Autor: Der Andere (Gast)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
In einem PDF steht der Text nicht mehr unbedingt zusammenhängend drin. 
Theoretisch kann da jeder Buchstabe für sich stehen, jeweils mit der 
Angabe an welcher Position bezogen auf den Seiteneckpunkt er steht. 
Üblicherseise stehen da allerdings eher einzelne Worte oder Absätze.
Weiter muss der verwendete Zeichensatz im PDF nicht dem 
Windowszeichensatz entsprechen.

Copy and Paste soll aus diesem Wust jetzt wieder einen Text 
zusammenbasteln. Das funktioniert halt mal besser und mal schlachter.

Abhilfe?

Eventuell eine OCR-Software über den Screenshot laufen lassen, eventuell 
gibt es auch PDF Viewer, die berreren Copy Support bieten.

Autor: Der Andere (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Der Andere schrieb:
> berreren

soll natürlich "besseren" heissen, sorry.

Autor: c. m. (camikusch)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
eventuell garnicht, oder nur näherungsweise.
was du auf einem PDF als wort, satz oder dergleiche zu erkennen glaubst 
sind nichts als objekte die auf einer seite plaziert wurden.
das können ganze wort- oder satz-strings sein, oder auch 
"hintereinander" platzierte buchstaben mit jeweils eigenen 
x/y-koodinaten.

anstatt copy&paste könntest du versuchen den text mit einem tool zu 
extrahieren. ich verwende z.b. iText (java/c#) um PDF's zu manipulieren.
textextraktion sieht dann ungefähr so aus (kurz gegoogelt):
https://stackoverflow.com/questions/8821107/pdf-te...

Autor: soul eye (souleye)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Kurt Kaminski schrieb:

> Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem
> sichtbaren Text entspricht?

Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals? 
Solche Scans liegen zunächst als TIF-Dateien vor und werden über Adobe 
Acrobat in pdf gewandelt. Dabei erfolgt eine automatische Texterkennung 
(OCR), dieser erkannte Text liegt unsichtbar hinter der Bilddatei. Beim 
Kopieren nimmst Du eben diesen Text mit. Und der OCR ist 
grottenschlecht.

Autor: Christoph Kessler (db1uq) (christoph_kessler)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
https://wiki.ubuntuusers.de/gscan2pdf/
das ist ähnlich dem genannten Adobe-Programm. Funktioniert auch eher 
schlecht und benutzt tesseract als OCR-Software.

Autor: Walter Tarpan (nicolas)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
soul e. schrieb:
> Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals?

Solche PDFs entstehen sehr leicht mit LaTeX, wenn sie über den "alten" 
Weg mit Postscript erzeugt wurden und nicht extra für Online-Nutzung, 
sondern für den Ausdruck optimiert sind.

Hintergrund ist der, daß tatsächlich einzelne Buchstabengruppen, die 
kleiner als ein Wort sind, einzeln positioniert sind, um das Kerning 
perfekt hinzubekommen. Wird das Package "hyperref" geladen, sind die 
erzeugten Dokumente automatische richtig fürs Web aufbereitet (und der 
Ausdruck [siehe Kerning]) leicht schlechter.

Autor: Stefan Us (stefanus)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
In solchen Fällen konnte ich das Problem mit Libreoffice meistens lösen. 
PDF in Libreoffice öffnen, Text kopieren und dann in eine neue leere 
Textdatei einfügen.

Autor: Sebastian S. (amateur)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Es gibt einen ganzen Sack voll Programme, die die Texte oder auch 
Bilder, aus einem PDF extrahieren können.

Aber keines davon ist hellseherisch veranlagt.
Also wie schon "Der Andere" angedeutet hat, kann man einen Text auch 
bunt gemischt schreiben und dann die "Buchstaben" so platzieren, dass 
sie wie Wörter aussehen.
Auch rund um die, ach so tollen 16-Bit, Zeichensätze gibt es einige 
versteckte Überraschungen. Nach dem Motto: Es sieht zwar nach ASCII aus, 
ist es aber nicht.
Last, but not least, kannst Du auch eine Grafik erwischen, die wie Text 
aussieht.

Autor: Walter Tarpan (nicolas)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Sebastian S. schrieb:
> Aber keines davon ist hellseherisch veranlagt.

Naja, es gibt schon ein paar einfache Merkmale, woran man erkennt, woher 
der Zwischenablagen-Müll kommt. Wenn vor allen Dingen die Ligaturen (fl, 
fi, ff, ij ...) fehlen, ist des das obengenannte Postscript-Problem.

Autor: Rufus Τ. Firefly (rufus) (Moderator) Benutzerseite
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Schon lange gibt es OCR-Software, die direkt auch PDF-Dateien verdauen 
kann, der "FineReader" von Abbyy ist ein Beispiel dafür.

Autor: (º°)·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.· (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
> Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt
> dieser an, sehe ich etwas wie
> el a b i aa r o u n dt
> oder
> er wßte ds er heute

Diese PDFs sind nicht korrupt sondern von dir nur unverstanden.

Im PDF steht: Zeichne das Objekt 'el' an die Position x1,y1,
zeichne das Objekt 'a' an die Position x2,y2 ...
Die Position ergibt sich aus typographischen Erwaegungen.

Um eine Textsuche zu ermoeglichen, koennen PDF-Dateien
auch eine 'lesbare' Interpretation dieser Daten in einem
ueblichen Zeichensatz enthalten.

Ein PDF ohne diese Zusatzinformationen ist aber nicht korrupt.

Autor: Elo (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Und wie bekommt man nun wirklich korrupte PDF-Dateien wieder anzeig- 
oder lesbar?
Da gibt es Onlineseiten die das angeblich können, nur wenn ich die Datei 
nicht mal geöffnet bekomme, wegen glaube ich CRC-Fehler, hat die sich 
wohl auf der HDD etwas verhaspelt?
Also als Datei beschädigt?

Autor: Abdul K. (ehydra) Benutzerseite
Datum:

Bewertung
0 lesenswert
nicht lesenswert
PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden 
Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen 
nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind, 
sollte sich der Rest weitgehend restaurieren lassen.
Bei echtem Postscript sieht es dagegen ziemlich mau aus.
Ein passendes Tool kenn ich nicht. Wirds aber sicher geben.


Solange es noch druckbar ist, kann man es einfach wieder einscannen.

Autor: (º°)·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.· (Gast)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Eine Zeichnung eines Architekturbueros eines Fabrikgebaeudes mit
ca. 70 Layern bringt den aktuellen Acrobat als auch den Reader
beim Drucken in die Knie.

Ein steinalter Foxit-Reader 3.01 aus dem Jahr 2008 schafft es aber
trotzdem :-)

Vielleicht sollte die Firma mal einige Justierungen an ihren
Produkten vornehmen...

Autor: Elo (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Abdul K. schrieb:
> PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden
> Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen
> nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind,
> sollte sich der Rest weitgehend restaurieren lassen.
> Bei echtem Postscript sieht es dagegen ziemlich mau aus.
> Ein passendes Tool kenn ich nicht. Wirds aber sicher geben.
>
>
> Solange es noch druckbar ist, kann man es einfach wieder einscannen.

War deine ausführliche Erklärung mir geschuldet?
Es handelte sich aber nur um eine relativ einfache A4 Seite. Ein 
Paketschein von DHL ließ sich nicht mehr einlesen / öffnen. Denn da 
steht dann auch die Sendungs-ID drauf, so ein Mist aber auch.

Autor: Elo (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Kurt Kaminski schrieb:
> Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt
> dieser an, sehe ich etwas wie
>
> el a b i aa r o u n dt
>
> oder
>
> er wßte ds er heute
>
> Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem
> sichtbaren Text entspricht?

So eine Zahlen- und Buchstabensalat hatte ich auch erst kürzlich mit 
einem PDF-Viewer.
Über das Firefox-Plugin sah der Trext dann aber wirklich sauber und gut 
aus.

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.