Merkwürdig codierte pdf-Datei

von Taucher (Gast)

12.08.2022 16:08

Angehängte Dateien:

pdf-Codierung.pdf (27,4 KB) | anzeigen

Lesenswert?

•

Wenn ich die angehängte Datei unter Linux mit einem pdf-Viewer öffne, 
sieht sie ganz normal aus. Wenn man aber Text daraus in die 
Zwischenablage kopiert und in einen Editor pastet, bekommt man nur 
Steuerzeichensalat.

Woran liegt das?

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von DerEgon (Gast)

12.08.2022 16:12

Lesenswert?

•

▲
▼

Das wird daran liegen, daß die Datei einen eingebetteten Font enthält, 
der nur die tatsächlich verwendeten Glyphen enthält. Um aufwendige 
Umcodierungstabellen wegzulassen, werden die einfach durchnumeriert und 
der Text so umcodiert, daß er diese durchnumerierten Glyphen nutzt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Jack V. (jackv)

12.08.2022 16:30

Lesenswert?

•

▲
▼

In dem Fall bestehen die Buchstaben aus Bilddaten, sind also kein 
tatsächlicher Text, und die Zuordnungen in der Datei sind falsch. 
Kaputtes OCR, oder Absicht – wobei es bei „Absicht” wohl einfacher 
gewesen wäre, überhaupt keine Zuordnungen einzubetten …

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Taucher (Gast)

12.08.2022 16:34

Lesenswert?

•

▲
▼

Ja, das scheint plausibel zu sein: die Datei lässt sich zwar 
durchsuchen, aber es wird nichts gefunden, wenn man den Suchbegriff per 
Tastatur eingibt. Kopiert man ihn dagegen aus dem Text, dann wird der 
Text gefunden.

Eine sinnvolle "Optimierung" ist das wohl eher nicht…

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Taucher (Gast)

12.08.2022 16:35

Lesenswert?

•

▲
▼

Jack V. schrieb:
> In dem Fall bestehen die Buchstaben aus Bilddaten

Das sind die Glyphen, von denen DerEgon schrieb.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Jack V. (jackv)

12.08.2022 16:52

Lesenswert?

•

▲
▼

Taucher schrieb:
> Das sind die Glyphen, von denen DerEgon schrieb.

Nein. Das sind schlicht Bilddaten. Die Glyphen sind in der Zuordnung. 
Sowas produzieren beispielsweise OCR-Programme: angezeigt wird die 
gescannte Seite als Bild, man kann augenscheinlich trotzdem markieren – 
allerdings werden nicht die Sachen, die man sieht, markiert, sondern die 
Sachen, die intern mit der entsprechenden Stelle auf der Seite verknüpft 
sind. Und diese Zuordnung ist hier falsch.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von ~-_-~ (Gast)

12.08.2022 17:43

Lesenswert?

•

▲
▼

Willst du den Guttenberg machen?

Selbst der wäre darauf gekommen es einfach auszudrucken
und wieder einzuscannen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Percy N. (vox_bovi)

12.08.2022 18:06

Lesenswert?

•

▲
▼

Jack V. schrieb:
> Nein. Das sind schlicht Bilddaten. Die Glyphen sind in der Zuordnung.

Nein. Glyphen sind eine spezielle, individuelle bildliche Darstellung 
eines  Schriftzeichens. So kann etwa die Glyphe "Trema" je nachdem einen 
Umlaut oder eine Diaerese markieren (auch wenn man das bei Unicode 
anscheinend nicht so ganz kapiert hat).

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Jack V. (jackv)

12.08.2022 18:25

Lesenswert?

•

▲
▼

Percy N. schrieb:
> Nein. Glyphen sind eine spezielle, individuelle bildliche Darstellung
> eines  Schriftzeichens.

Ich habe „Glyphen“ in diesem Kontext übernommen, damit dem Adressaten 
der Bezug klar ist.

Ist auch nicht der relevante Punkt – der ist, dass die PDF-Datei eben 
keinen Text mittels Font darstellt, sondern das, was man im Reader 
sieht, Bilder sind, die so in der Datei vorliegen, und man so eben gar 
nicht den „Text“ markieren/kopieren kann, den man sieht.

Es stünde dir gut, deine Pedanterie hier unter Kontrolle zu halten, btw. 
– oder aber deine Analysen korrekt durchzuführen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Percy N. (vox_bovi)

12.08.2022 20:06

Lesenswert?

•

▲
▼

Hast Du das Klirren vernommen?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von MaWin (Gast)

12.08.2022 20:38

Lesenswert?

•

▲
▼

DerEgon schrieb:
> Das wird daran liegen, daß die Datei einen eingebetteten Font enthält,
> der nur die tatsächlich verwendeten Glyphen enthält. Um aufwendige
> Umcodierungstabellen wegzulassen, werden die einfach durchnumeriert und
> der Text so umcodiert, daß er diese durchnumerierten Glyphen nutzt.

Ja.

Jack V. schrieb:
> In dem Fall bestehen die Buchstaben aus Bilddaten, sind also kein
> tatsächlicher Text

Nein.

Jack V. schrieb:
> Nein. Das sind schlicht Bilddaten. Die Glyphen sind in der Zuordnung.
> Sowas produzieren beispielsweise OCR-Programme:

Nein.

Jack V. schrieb:
> Es stünde dir gut, deine Pedanterie hier unter Kontrolle zu halten, btw.
> – oder aber deine Analysen korrekt durchzuführen.

So so.

Im offensichtlichen Gegensatz zu dir habe ich solche PDF mit embeddeten 
komprimierten Fonts schon erzeugt - das geht völlig anders als ein PDF 
von aufgereihten Bildern.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Jack V. (jackv)

12.08.2022 22:09

Lesenswert?

•

▲
▼

MaWin schrieb:
> Jack V. schrieb:
>> In dem Fall bestehen die Buchstaben aus Bilddaten, sind also kein
>> tatsächlicher Text
>
> Nein.

Dann öffne diese Datei, und stelle die höchste Zoom-Stufe ein. Mach das 
mit einer Datei mit tatsächlichem Text. Vergleiche, und erkläre den 
Unterschied.

MaWin schrieb:
> Im offensichtlichen Gegensatz zu dir habe ich solche PDF mit embeddeten
> komprimierten Fonts schon erzeugt - das geht völlig anders als ein PDF
> von aufgereihten Bildern.

Und wie hast du’s gemacht, dass die Markierung nicht das erfasst, was 
dargestellt wird?

MaWin schrieb:
> So so.

… Bezug war Percys threadzerlegende OT-Spitzfindigkeit.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Christoph db1uq K. (christoph_kessler)

12.08.2022 22:45

Angehängte Dateien:

pdftext.txt (3,25 KB)

Lesenswert?

•

▲
▼

Der gimagereader braucht ziemlich lange, um nur diese Seite zu erkennen.
Für einen längeren Text wäre das nervenaufreibend.
Anscheinend wurden manche Zeichen durch Unicode ersetzt, hier der 
Apostroph, je nach Editor falsch dargestellt:
 the user’s requirements (clustered ‘on the fly’)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Percy N. (vox_bovi)

13.08.2022 00:47

Lesenswert?

•

▲
▼

Jack V. schrieb:
> Bezug war Percys threadzerlegende OT-Spitzfindigkeit.

Leider hast Du nun einmal Unsinn erzählt; DerEgon hatte völlig Recht. 
Und da Du ja sicherlich nicht dumm genug bist, um im Irrtum beharren zu 
wollen, solltest Du Dich über die kleine Hilfe von der Seite eigentlich 
nur freuen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von oszi40 (Gast)

13.08.2022 02:37

Angehängte Dateien:

DerBeispielPDF_Text_etwas__markiert.jpg
250 KB

Lesenswert?

•

▲
▼

Nun habe ich mal das Taucher-Beispiel zur Analyse auf 200% gezoomt ohne 
Probleme und dann etwas markiert. Wie man sieht, macht schon das 
Markieren Probleme. Es ist anzunehmen, dass nicht einzelne Buchstaben 
als Bilder, sondern, sondern einige Elemente zusammengefasst zu Bildern 
verwurstelt wurden.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Christoph db1uq K. (christoph_kessler)

13.08.2022 05:34

Angehängte Dateien:

Okular.jpg
50 KB

Lesenswert?

•

▲
▼

Der PDF-Betrachter Okular will im markierten Text nach Telefonen suchen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Ein T. (ein_typ)

13.08.2022 16:59

Lesenswert?

•

▲
▼

Taucher schrieb:
> Woran liegt das?

Woran das liegt, haben andere ebenso freundliche wie kompetente 
Teilnehmer dieses Threads ja schon erklärt. Der Vollständigkeit halber 
möchte ich allerdings darauf hinweisen, wie man trotzdem mit relativ 
überschaubarem Aufwand an den Inhalt der PDF-Datei als Plaintext kommt: 
zuerst wird das PDF mit pdftoppm in ein Netpbm-Bild konvertiert und 
dieses dann mit dem OCR-Programm tesseract in Text umgewandelt:

ein@typ$ ls
pdf-Codierung.pdf
ein@typ$ pdftoppm pdf-Codierung.pdf pdf-Codierung
ein@typ$ ls
pdf-Codierung-1.ppm  pdf-Codierung.pdf
ein@typ$ tesseract pdf-Codierung-1.ppm pdf-Codierung
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 193
ein@typ$ head pdf-Codierung.txt 
(and user-unfriendly) Boolean logic is employed. Web search engines [...]


HTH, YMMV.

Edit: Typo korrigiert.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Christoph db1uq K. (christoph_kessler)

13.08.2022 20:43

Angehängte Dateien:

ghex.png
56 KB

Lesenswert?

•

▲
▼

ja so ähnlich hatte ich das oben auch gemacht.
gimagereader ist eine graphische Oberfläche für tesseract und mit dem 
PDF-Betrachter Okular konnte ich die Seite als Bild abspeichern.

Die Methode Guttenberg (copy&paste) liefert mir diese Hexcodes eines 
Teilausschnitts. Interessant ist vielleicht die geringe Anzahl von 
High-Bits, was auch für eine Speicherung als Pixel spricht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Besserwisser (Gast)

13.08.2022 22:36

Lesenswert?

•

▲
▼

N.B. hier scheint die Quelle des Textes zu sein:
https://www.academia.edu/805484/Hierarchical_word_clustering_automatic_thesaurus_generation

Hier hatten wir ja einen ähnlichen Fall:
Beitrag "Knacknuss Text aus PDF extrahieren"

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Christoph db1uq K. (christoph_kessler)

14.08.2022 13:54

Lesenswert?

•

▲
▼

https://www.researchgate.net/publication/220551661_Hierarchical_word_clustering_-_Automatic_thesaurus_generation
hier kann man das PDF herunterladen, es ist anscheinend nachträglich mit 
dem Text hinterlegt, enthält auch OCR-Schreibfehler aber wenigstens 
durchsuchbar.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Taucher (Gast)

18.08.2022 16:51

Lesenswert?

•

▲
▼

Ein T. schrieb:
> Der Vollständigkeit halber
> möchte ich allerdings darauf hinweisen, wie man trotzdem mit relativ
> überschaubarem Aufwand an den Inhalt der PDF-Datei als Plaintext kommt:
> zuerst wird das PDF mit pdftoppm in ein Netpbm-Bild konvertiert und
> dieses dann mit dem OCR-Programm tesseract in Text umgewandelt:

Ich habs mit ABBYY Finereader in einem Abwasch hinbekommen – und zwar, 
bevor ich hier gefragt habe…

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Merkwürdig codierte pdf-Datei

von Taucher (Gast)

18.08.2022 16:53

Lesenswert?

•

▲
▼

Christoph db1uq K. schrieb:
> hier kann man das PDF herunterladen

Wow, wie hast du das gefunden? Meine Version stammt von einem 
Preprint-Server.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC Hard- und Software Merkwürdig codierte pdf-Datei