Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 10:53

Angehängte Dateien:

pdftotext__workcopy-11.txt (5,53 KB)

Lesenswert?

•

▲
▼

hallo das Crowdorakel von uC.net,

  mir liegt ein interessantes PDF vor, von dem ich eigentlich simpel den 
Text extrahieren moechte...  geht aber nicht.

  Nein: das PDF ist NICHT verschluesselt.
  Ja: beim angucken am Bildschirm (z.B. in Firefox, Evince, XPdf) ist es 
lesbar dargestellt.
  Ja: es ist druckbar.
  Nein: es enthaelt keine Bilder.
  Nein: es ligt nicht am Tabellarischen layout. Haette ich zumindest den 
Text braechte ich mit ScriptFu bestimmt was hin...


  Was bisher scheiterte (alle produzieren nur Zeichensalat):
  - pdftotext     "pdftotext workcopy-11.pdf"
  - ghostscript   "gs -sDEVICE=txtwrite -o text.txt workcopy-11.pdf"
  - abiword       "abiword --to=txt workcopy-11.pdf"
  - ebook-convert "ebook-convert workcopy-11.pdf text.txt"

  LOWriter scheitert am "Insert".."Document" mit Fehlerdialog 
"Libr...1.6.2  Read-Error.  Error reading file."
  (das Fenster laesst sich leider nicht vergroessern um den ganzen Titel 
zu lesen!)

  Im Anhang wie das Zeichensalatergebnis ausschaut.

  Warum kein Anhang des Originals?
  Weil es Telefonverbindungsdaten enthaelt. Zwar kein Staatsgeheimnis, 
aber trotzdem.
  Wer mich per PN kontaktiert um sich daran zu versuchen bekommt 
natuerlich das Oginool.


  Meine Bitte also: liest hier ein PDF-Guru mit, der sich daran 
versuchen moechte?  Er moege sich per PN zu erkennen geben - Danke.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Andreas O. (andi2doo)

31.01.2018 10:59

Lesenswert?

•

▲
▼

Hallo Leo,

probiere mal freeOCR! Holt text aus Grafik.

Hat bei mir bis jetzt immer geklappt

LG Andi

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Georg M. (g_m)

31.01.2018 11:07

Lesenswert?

•

▲
▼

PDF to Word Converter

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Evince (Gast)

31.01.2018 11:08

Lesenswert?

•

▲
▼

Ich bekomme regelmäßig PDF Angebote die ich früher von Hand abtippen 
musste um sie in unser SAP einzugeben (will der Einkauf so...). Bis ich 
Evince als PDF-Reader entdeckt habe, der sich nicht um die 
Adobe-PDF-Standards kümmert, in denen Copy&Paste bei meinen Dateien 
verboten ist.

Wenn es also nicht Bilder sind, bei denen OCR die Lösung wäre, probier 
das doch mal.

https://de.wikipedia.org/wiki/Evince

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 11:09

Lesenswert?

•

▲
▼

> probiere mal freeOCR! Holt text aus Grafik.

> PDF to Word Converter


Danke aber sorry: kein Windows hier.
FreeOCR ist wohl nur free beer und Word nicht mal das... :-(

An den Weg via OCR habe ich zwar schon gedacht, aber muss das sein?
(wie ich bereits schrieb: es sind ohnehin keine Bilder im PDF 
eingebettet. Ja, ich weiss: PDF malt halt die Buchstaben hin...)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von how about man (Gast)

31.01.2018 11:25

Lesenswert?

•

▲
▼

Leo K. P. schrieb:

>
>   Im Anhang wie das Zeichensalatergebnis ausschaut.
>



pdftotext -enc encoding-name xy

 Sets  the encoding to use for text output.  The encoding-name must be 
defined with the unicodeMap command (see xpdfrc(5)).   The  encoding 
name  is  case-sensitiv. This  defaults  to "Latin1" (which is a 
built-in encoding).  [config file: textEn-coding]

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Der Andere (Gast)

31.01.2018 11:47

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> An den Weg via OCR habe ich zwar schon gedacht, aber muss das sein?

Es ist dein Problem, du musst also entscheiden ob das sein muss.


Leo K. P. schrieb:
> Ja, ich weiss: PDF malt halt die Buchstaben hin...

Eben drum, entweder du findest eine einfache Lösung oder du probierst es 
via OCR.
Oder du tippst es ab ;)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von oszi40 (Gast)

31.01.2018 12:04

Lesenswert?

•

▲
▼

Bei OCR könnten sich einige Erkennungsfehler einschleichen. Daher sollte 
einen andere Lösung zuverlässiger sein. Falls der ganze Text sichtbar 
ist: erst mal CTRL-A, dann CTRL-C und später mit CTRL-V wieder in ein 
irgendwas.txt einfügen ging nicht? Mit Libreoffice ging auch nicht?

Sonst mal Originaldatei mit Editor ansehen was am Anfang steht. Evtl. 
ist da ein hilfreicher Hinweis zu finden?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Bernd B. (berbog)

31.01.2018 12:18

Lesenswert?

•

▲
▼

Inkscape kann PDF Importieren

https://inkscape.org/de/

Gruss Bernd

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 12:23

Lesenswert?

•

▲
▼

> Evince als PDF-Reader entdeckt habe, der sich nicht um die

uups, sorry nochmals. Evince ging in der Liste vergessen.
Evince ist auch mein standard PDF-Betrachter und ich kann darin zwar per 
Maus Text selektieren, bekomee beim Pasten im Editor aber ganz 
aehnlichen Zeichensalat wie bei den versagenden Konvertierprogramme.

Als Notnagel wuerde ich Maus/Copy/Paste nehmen weil solchein Dokument 
1x/Monat eintrudelt. Eine CLI-basierte Loesung ziehe ich aber definitiv 
vor.


> pdftotext -enc encoding-name xy

Danke fuer den Hinweis, hilft aber auch nicht.

$ pdftotext -listenc | grep -v ':' | while read ENC
   pdftotext -enc "$ENC" workcopy-11.pdf "${ENC}-11.txt"
$ grep -c Festnetz *txt  # das Wort 'Festnetz' ist mit Evince/FF/.. am Bildschirm zu lesen
ASCII7-11.txt:0
Big5-11.txt:0
Windows-1255-11.txt:0
ZapfDingbats-11.txt:0
$ ## keine Treffer unter den 23 Encodings :-(

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 12:24

Lesenswert?

•

▲
▼

oszi40 schrieb:
> Sonst mal Originaldatei mit Editor ansehen was am Anfang steht. Evtl.
> ist da ein hilfreicher Hinweis zu finden?

$ cat -A workcopy-11.pdf | head
%PDF-1.2$
%M-GM-lM-^OM-"$
<</Length 7 0 R/Filter /FlateDecode>>$
xM-^\M-]\M-^K{M-SM-V^Ugr!KM-B7M-^^+^]^FM-dM-^FZMM-W&X/K^FM-*M-^A(M-^[M-!M-UZM-2M-4M-FM-.@M-6M-\^GPM-HM-^FB^K^[M-[hM-KM-VM--ccM-]M-FM-^M-/^?uM-wM-^s^_M-RM-5M-d8M-^I^]^X_>M-lDM-^VM-n=M-wwM-OM-cwM-N=M-ffM-%M-6M-(WjM-xM-^GM->M-woM-LM-

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Der Andere (Gast)

31.01.2018 12:30

Lesenswert?

•

▲
▼

oszi40 schrieb:
> Sonst mal Originaldatei mit Editor ansehen was am Anfang steht. Evtl.
> ist da ein hilfreicher Hinweis zu finden?

Die Textdaten sind sehr wahrscheinlich komprimiert. Sieht man am letzten 
Beitrag.
Und dann scheint jeder Buchstabe oder mindestens jedes Wort direkt 
grafisch positioniert zu sein. Ohne eine genaue Analyse ist das also 
nicht einfach mit copy&paste übertragbar.
Da müsste man sich schon ein Programm schreiben.
Ich habe vor vielen Jahren mal einen Generator geschrieben, das interne 
PDF Format ist echt kein Spass.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Georg M. (g_m)

31.01.2018 13:02

Angehängte Dateien:

secured_pdf.png
110 KB

Lesenswert?

•

▲
▼

oszi40 schrieb:
> ist: erst mal CTRL-A, dann CTRL-C und später mit CTRL-V wieder in ein
> irgendwas.txt einfügen ging nicht? Mit Libreoffice ging auch nicht?
>
> Sonst mal Originaldatei mit Editor ansehen was am Anfang steht. Evtl.
> ist da ein hilfreicher Hinweis zu finden?



Remove the password and restrictions of PDF files online:

https://crackmypdf.com/

https://www.pdfunlock.online/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Lukas T. (tapy)

31.01.2018 13:12

Lesenswert?

•

▲
▼

Das wird wahrscheinlich alles nicht sonderlich viel bringen, da der Text 
vermutlich mit einem "Embedded Subset" des Fonts abgespeichert wird.

Zur Verdeutlichung des Prinzips:
Hallo -> ASCII ->  72 97 108 108 111

Dafür müssen jetzt natürlich alle Zeichen bis 255 vorliegen. Also baut 
sich der PDF-Generator seinen eigenen Font:

1 -> H, 2 -> a, 3 -> l, 4 -> o
Hallo --> 1 2 3 3 4

Und im nächsten Abdatz steht "Hallo du" und weil das mit dem 
Komprimieren so toll funktioniert, wird das auch noch Abschnittsweise 
gemacht:

1 -> " ", 2 -> H, 3 -> a, 4 -> d, 5 -> l, 6 -> o, 7 -> u
Hallo du --> 2 3 5 5 6 1 5 7

Für den dekodierenden pdf-Viewer ist das alles kein Problem, da ja das 
korrekte Zeichen für den im jeweiligen Abschnitt gültigen Code 
hinterlegt ist.
Kopier man allerdings daraus, hat man (ASCII 0 bis 7) unsichtbare 
Steuerzeichen bis totalen Zeiochenmüll. Und das meist auch nicht 
durchgehen gleich, sonst könnte einfach bspe. 65 addiert werden.

Das ist ein Problem, das mir auch schon das eine oder andere Mal 
Kopfschmerzen beschert hat und wenn jemand eine Lösung hat: Her damit!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Klaus B. (forrestjump)

31.01.2018 13:21

Lesenswert?

•

▲
▼

arbeite in der Druckvorstufe u.a. mit dem Acrobat/ Distillerpaket.
würde mich anbieten zu schauen woran es hapert. Bitte um Zusendung der 
PDF
per PM.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Soeren K. (srkeingast)

31.01.2018 13:47

Lesenswert?

•

▲
▼

Entweder liegts an der Schrift, oder der "unterliegende Text" ist 
verschlüsselt.

Die Lösung ist ein OCR-Tool zu verwenden, z.Bsp. tesseract (frei).

Ich würde mich auch um eine Zusendung freuen.


Bei Tesseract musst du nur vorher die Seiten teilen (pdftk), in ein Bild 
(png) wandeln (gs / imagemagick), dann tesseract -l deu XXX.png XXX.pdf, 
und schließlich wieder zusammenfügen.


Ich hab dafür ein Online-Tool gebaut dessen URL ich auf PM mitteilen 
kann.

31.01.2018 13:51: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Dieter F. (Gast)

31.01.2018 14:08

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> Ja: es ist druckbar.

Dann druck es halt als Text-Datei.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 14:11

Lesenswert?

•

▲
▼

> Remove the password and restrictions of PDF files online:

> Entweder liegts an der Schrift, oder der "unterliegende Text" ist
> verschlüsselt.

wie ich bereits im ET schrieb: das PDF is NICHT verschluesselt.

$ pdfcrack -o workcopy-11.pdf
Error: Encryption not detected (is the document password protected?)


  -|-  -|-

Mittlerweile habe ich auch mit Inkscape rumgemacht.
Plumpes oeffnen ergibt "nix" ausser 4 Dekolinien, jedoch definitiv kein 
Text.
So man beim Importdialog die Option "use Poppler" anwaehlt, bekommt man 
ein Rendering des PDFs in das Inkscape Dokument. Hierbei handelt es 
sich aber um eine Pixelwueste, also ein PNG-Abbild des Textes.
Also dasselbe wie

1	$ convert workcopy-11.pdf abbild-11.png

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von bastel_ (Gast)

31.01.2018 14:31

Lesenswert?

•

▲
▼

In 300 DPI Bilder umwandeln, tesseract drüber, Profit!

https://diging.atlassian.net/wiki/spaces/DCH/pages/5275668/Tutorial+Text+Extraction+and+OCR+with+Tesseract+and+ImageMagick

Zum Beispiel so.
Ich weiß jetzt gar nicht, ob tesseract PDFs direkt kann, aber in dem 
Fall eh egal, da es nicht um solche "Scan PDFs" geht, wo nur ein Bild 
pro Seite vorhanden ist.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Georg M. (g_m)

31.01.2018 14:36

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> wie ich bereits im ET schrieb: das PDF is NICHT verschluesselt.

Sorry, ich habe es falsch verstanden.

Ja, das ist ein Problem...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 14:43

Angehängte Dateien:

tesseract-11.txt (2,01 KB)

Lesenswert?

•

▲
▼

> Bei Tesseract musst du nur...

ein erster, plumper Versuch mit tesseract verlief seehhr ernuechternd 
:-/
Das Ergebnis im Anhang: weder Tel.Nummern noch Datum noch Zeiten wurden 
erkannt. Der Rest des Textes besteht eigentlich aus einem sehr sehr 
eingeschraenkten Vokabular (im Schnellueberflug zaehle ich gerade mal 
nur 24 einzigartige Woerter).

$ convert  workcopy-11.pdf  abbild-11.png
$ tesseract  -l deu  abbild-11.png  tesseract-11.txt


Harter Einsieg in OCR...

OK: die Bilddatei abbild-11.png ist vllt. etwas klein geraten und schaut 
aus wie ein Fax (ausgefranste Zeichen) - ich mach nochmal 'ne Runde...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 14:48

Angehängte Dateien:

diging-website-wtf.png
22 KB

Lesenswert?

•

▲
▼

bastel_ schrieb:
> 
https://diging.atlassian.net/wiki/spaces/DCH/pages/5275668/Tutorial+Text+Extraction+and+OCR+with+Tesseract+and+ImageMagick

was sollte ich hier denn sehen?  (s. Bild)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von rbx (Gast)

31.01.2018 14:49

Lesenswert?

•

▲
▼

Was kann dein Browser/-Plug/?

(und: ginge irgendwas in Richtung pdf to dvi?)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Soeren K. (srkeingast)

31.01.2018 14:56

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> ein erster, plumper Versuch mit tesseract verlief seehhr ernuechternd

Hi, ich hatte dir per Mail mein (sehr brauchbares) Ergebnis mit 
Tesseract geschickt. Evtl. ist es im Spam gelandet (anderer 
Absenderadresse).

31.01.2018 14:57: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Dieter F. (Gast)

31.01.2018 15:04

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> Ja: es ist druckbar.

Zum 2. und letzten Mal: Dann druck es halt als Text-Datei.

Falls Du nicht weisst, wie so etwas geht - suche mal nach 
"Generic"-Druckern.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 17:18

Lesenswert?

•

▲
▼

Soeren K. schrieb:
> Hi, ich hatte dir per Mail mein (sehr brauchbares) Ergebnis mit
> Tesseract geschickt.

hi Soeren,

  Besten Dank, das ist angekommen (nix spam) und insofern perfekt 
gelungen das nun pdftotext korrekten Text extrahiert.
  (die diversen Spalten sind nun untereinander, ich muss also die Zeilen 
wieder rekonstruieren. Das soll nun aber nicht mehr Dein Problem sein 
und auch nicht Diskussionsgegenstand in diesem Thread)

  Du schreibst Du hast das mit tesseract erzielt. Also sollte ich das 
doch offline bei mir auch erreichen...  (ich mag online-Dienste nicht 
und Du nicht monatlich Post von mir :-)

  Ist Dir Font-mässig irgendwas aufgefallen?  Wie ich weiter oben 
schrieb, ist bei mir die Anzeige am Bildschirm so "Fax-Mässig"; dies 
scheint ebenfals auf die Bildzwischenstufe welche ich per convert 
produziere zuzutreffen.
  Ich kann jedoch nicht eruieren welchen Font ich ggfs. nachinstallieren 
soll...

Gruss,
Leo

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Soeren K. (srkeingast)

31.01.2018 17:30

Lesenswert?

•

▲
▼

Teste bitte mal:

--> png erstellen mit imagemagick und 200dpi

convert -density 200 -flatten pdfdatei.pdf pngdatei.png
tesseract -l deu pngdatei.png pdfdatei-neu pdf

31.01.2018 17:33: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Christoph db1uq K. (christoph_kessler)

31.01.2018 17:54

Lesenswert?

•

▲
▼

Ich habe das unter Ubuntu schon mit
pdftoppm xxxxxxx.pdf pdfimg -png
und anschließendem gimagereader versucht. Da kommt leider nur reiner 
Text und einige Lesefehler, aber besser als nichts.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von how about man (Gast)

31.01.2018 18:00

Lesenswert?

•

▲
▼

Leo K. P. schrieb:

>

> $ pdftotext -listenc | grep -v ':' | while read ENC
> $ ## keine Treffer unter den 23 Encodings :-(


pdftotext -listenc
    List the available encodings


Evtl. gibt die Ausgabe von "pdffonts" Hinweise ob das loesbar ist.

The pdffonts tool, also part of Xpdf, will list all of the fonts used by 
a PDF file, along with their types, whether the fonts are embedded or 
not, and whether the fonts have ToUnicode mappings or not

aus https://www.glyphandcog.com/textext.html

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 19:12

Lesenswert?

•

▲
▼

> Evtl. gibt die Ausgabe von "pdffonts" Hinweise ob das loesbar ist.

das hatte ich bereits vor dem eroeffnen dieses Thread abgeklopft

$ pdffonts workcopy-11.pdf 
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
[none]                               Type 3            Custom           yes no  no       9  0


Wie heisst nun der verwendete Font?  Uneruierbar...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von how about man (Gast)

31.01.2018 19:43

Lesenswert?

•

▲
▼

> Wie heisst nun der verwendete Font?

Örgs ;)

---

Hier gibts Vorschläge wie man dem evtl. beikommen könnte:

https://stackoverflow.com/questions/3488042/how-can-i-extract-embedded-fonts-from-a-pdf-as-valid-font-files

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von oszi40 (Gast)

31.01.2018 20:00

Lesenswert?

•

▲
▼

Wenn ich das jetzt richig verstanden habe, sind die im pdf 
mitgelieferten Fonts das Problem. Diese einfach gegen z.B. Arial 
auszutauschen wird oft schief gehen, wenn die Zeichen andere Breite 
haben. Dann stimmt keine Tabelle und kein Rand.

Wahrscheinlich ist wie oben genannt der "Druck in eine Datei" die 
einfachste Variante zur späteren Bearbeitung?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Marcus H. (mharnisch)

31.01.2018 21:26

Lesenswert?

•

▲
▼

Mit den Kontoauszügen der Deutschen Bank gibt es ein ähnliches Problem. 
Abhilfe gibt es über den Umweg PDF->PS->PDF:

1	pdf2ps vorher.pdf - \| ps2pdf - nachher.pdf


Aus dem erzeugten PDF sollte nun der Text extrahiert werden können.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 22:09

Lesenswert?

•

▲
▼

> Abhilfe gibt es über den Umweg PDF->PS->PDF:pdf2ps vorher.pdf - | ps2pdf
> - nachher.pdf
>
> Aus dem erzeugten PDF sollte nun der Text extrahiert werden können.

sehr interessant, klapp jedoch hier leider auch nicht.
Das Ergebnis ist (selbst auf der Systemkonsole!) als waere es in 
Zapfdingbats o.ae. Symbolschrift geschrieben (Sterne, Schere, Dreieck, 
Kreis, usw.)  :-/


  -|-  -|-

Fontextraktion:
> Hier gibts Vorschläge wie man dem evtl. beikommen könnte:
> 
<https://stackoverflow.com/questions/3488042/how-can-i-extract-embedded-fonts-from-a-pdf-as-valid-font-files>;

Volgende Versuche sind GESCHEITERT:
- gs mit extractFonts.ps
- fontforge  (core dump!)

Bei pdf2ps bin ich zu wenig fluessig in PS um das gemaess Angabe von 
Hand im Editor rauzudroeseln. Zu sehen sind 160 Zeilen mit

1	%%BeginResource: file (PDF CharProc obj_32)

zu finden, wobei die "Zahl" bei obj_xx mit wenigen luecken von 10..167 
geht. Das duerften die Zeichendefinitionen des irgendwie eingebetteten 
und namenlosen Fonts sein.

Den weg mit *pdf-parser.py* braucht etwas mehr Zeit und Einarbeitung...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 22:11

Lesenswert?

•

▲
▼

OT:

Leo K. P. schrieb:
> Den weg mit *pdf-parser.py* braucht etwas mehr Zeit und Einarbeitung...

haha: geiles Markup-Rendering hier ;-)   Weiss das der Chef?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 22:18

Lesenswert?

•

▲
▼

oszi40 schrieb:
> Wahrscheinlich ist wie oben genannt der "Druck in eine Datei" die
> einfachste Variante zur späteren Bearbeitung?

Ich weiss genau was Dieter Quackenbusch meint; unter Windows.
Ich habe jedoch kein Windows hier (Zum 2. und letzten Mal)

Ich bekomme zwar ein "Generic Printer" (Text-only) eingerichtet, jedoch 
NUR im zusammenhang mit einer echten SCHNITTSTELLE.
In den zugehörigen Druckdialoge ist dann nichts von "umleitung in Date" 
o.Ä. zu finden.
Natuerlich finde ich einen voreingerichteten virtuellen Drucker: diese 
ist aber NICHT "text-only" sondern erzeugt PDFs. Ich starte ja bereits 
mit PDF!!!

Moment mal: nach dem Hinweis zur Deutschen Bank muss ich nun was 
probieren gehen...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von guest (Gast)

31.01.2018 22:24

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> Natuerlich finde ich einen voreingerichteten virtuellen Drucker: diese
> ist aber NICHT "text-only" sondern erzeugt PDFs. Ich starte ja bereits
> mit PDF!!!

Das PDF durch den PDF-Drucker zu jagen wäre aber auch mal einen Versuch 
wert.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von oszi40 (Gast)

31.01.2018 22:25

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> mir liegt ein interessantes PDF vor,
> Ja: es ist druckbar.

Ganz dumm gefragt: Kann der Erzeuger kein besseres Format liefern?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 22:31

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> Moment mal: nach dem Hinweis zur Deutschen Bank muss ich nun was
> probieren gehen...

Nein: das original-PDF via virtuellen PDF-Drucker gedruckt und dann 
durch pdftotext ergibt genauso Buchstabensalat.

Sinnloses probieren mit den auf diesem Weg selektierbaren Varianten 
-->PS oder -->SVG bleibt wohl ...sinnloses probieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 22:42

Lesenswert?

•

▲
▼

oszi40 schrieb:
> Ganz dumm gefragt: Kann der Erzeuger kein besseres Format liefern?

Die Antwort lautet soweit:
"Wegen 1 Kunde stellen wir nicht den ganzen Prozess um."


Bedenke: das sind die Telefonverbindungsdetails; diese werden sicher 
nicht durch Mausschubser fuer jeden Kunden einzeln angefertigt sondern 
werden aus dem "Telefonnetz" automatisch generiert.
Das Dokument scheint (zumindest mir als nicht in der Druckbranche 
heimischen) mit dem gleichen Font gesetzt zu sein wie andere 
Korrespondenz der Firma, nichtmal ein firmenspezifischer Briefkopf ist 
da drin.

Bis letzthin wurde dies auf Papier per Brief zugestellt - neu muss ich 
als Kunde dies selber als PDF abholen.
Ich freute mich dass ich nun dank el.Format (eben PDF) eigene 
Auswertungen skripten kann - leider Fehlanzeige solange ich nicht 
irgendwie an den Text gelange.

Ausser ich mache dies per OCR, was sich jedoch ABSURD anfuehlt da im PDF 
eben gar kein BILD drin steckt...

So langsam glaube ich an "EDV == Ende" Der Vernunft.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

31.01.2018 22:45

Lesenswert?

•

▲
▼

Soeren K. schrieb:
> Teste bitte mal:
>
> --> png erstellen mit imagemagick und 200dpi
>
> convert -density 200 -flatten pdfdatei.pdf pngdatei.png
> tesseract -l deu pngdatei.png pdfdatei-neu pdf

SEHR GUT :-)

ich habe eine kleine Versuchsreihe gemacht:

$ for DENS in 100 150 200 220 250 280 330 400
  convert -density $DENS  -flatten  workcopy-11.pdf  -  \
    tesseract  -l deu  stdin  convert__dens${DENS}-11.txt
$ wc -l convert__dens*txt
   79 convert__dens100-11.txt
   82 convert__dens150-11.txt
   74 convert__dens200-11.txt
   76 convert__dens220-11.txt
   72 convert__dens250-11.txt
  345 convert__dens280-11.txt
  354 convert__dens330-11.txt
  347 convert__dens400-11.txt
 1429 total


  hierbei unterscheiden sich die Ergebnisse mit 200/220/250 dpi 
untereinander nur in ein paar LEERZEILEN  :-)  der erkannte Text ist in 
diesen 3 Dateien IDENTISCH, korrekt (Stichprobe) UND die Datenzeilen 
bleiben erhalten (kein um-zu-ordnen der Spalten noetig).

  Hoehere Zahl an dpi bringt nur wieder die Spalten untereinander, was 
ich separat wieder umordnen muesste.


  An dieser Stelle ein grosses Dankeschön an alle welche konstruktiv 
in diesem Thread an meinem Problem mitgemacht haben, insbesondere an 
Soeren: von ihm kam entscheidende Unterstuetzung zu meinen ersten 
Gehversuche in OCR.

  -|-  -|-

Natuerlich empfinde ich es als aergerlich ein elektronisches Dokument 
(PDF) geliefert zu bekommen welches Text (keine Bilder) enthaelt, dieser 
Text sich aber nur ab Bildschirm/Papierdruck abgelesen weiterverwenden 
laesst.

Dass nun OCR abhilfe bringt ist zwar ein Zeugnis der Leistungsstärke 
heutiger Algorithmen, in diesem Einsatz jedoch bleibt mir der schale 
Nachgeschmack von "mit Kanonen auf Spatzen geschossen" zu haben.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Georg M. (g_m)

31.01.2018 22:48

Lesenswert?

•

▲
▼

Der Umweg über die OCR ist eine Notlösung: Analogisierung und dann 
wieder Digitalisierung.

Das digitale Dokument wird vom PDF-Reader richtig dargestellt, also muss 
das Dokument die Codierungsinformation enthalten, also muss es möglich 
sein, das Dokument digital bearbeiten zu können.

Oder irre ich mich?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Lutz H. (luhe)

31.01.2018 22:51

Lesenswert?

•

▲
▼

Georg M. schrieb:
> Das digitale Dokument

Irre ich mich oder existiert das digitale - pdf Dokument nicht?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von bastel_ (Gast)

31.01.2018 23:08

Lesenswert?

•

▲
▼

Georg: Das digitale PDF wird analog vom PDF reader gerendert 
(analogisiert sozusagen), dem ist es ziemlich egal was der Mensch da 
sieht.

Wenn da ein Customfont in dem PDF steckt, dann kann jedes Teichen 
sonstwas sein.. Ein Smiley, ein Buchstabe, eine Ziffer. Aber eben nicht 
was z.b. Unicode vorgibt. Oder gleich Codepunkte im Unicode die dafür 
reserviert sind. Ohne OCR: Keine Chance.
Wenn der Font immer konstant ist (könnte ja für jedes PDF neu 
verschwurbelt werden), dann könnte man theoretisch einmal mühselig das 
Mapping herausfinden (kann man gaaaaanz theoretisch mittels OCR 
automatisieren, bloß wieso?) und dann einfach über eine Mappingtabelle 
zurückmappen. Aber dann kommt jemand auf die Idee gleich nur noch 
Glyphen als Grafikbefehle in das PDF zu klatschen, dann ist aber ganz 
vorbei.

Das passt schon so mit dem OCR, besonders weil es ja kein Scan sondern 
ein digitial gerendertes Bild ist, wenn man den OCR Reader da auf den 
Font trainiert, dann kann das am Ende perfekt klappen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Soeren K. (srkeingast)

31.01.2018 23:10

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> An dieser Stelle ein grosses Dankeschön

Gern.

Ansonsten: So wie ich den Header/ die strings (bash: strings XXX.pdf) 
der Datei gedeutet habe wird die mit hornalter (2005) Sofware erstellt, 
leider fehlt mir da der Hintergrund was da genau passiert, ich vermute 
aber auch einen Zusammenhang mit der Schriftart. Sicher kann man da über 
Umwege und der Font wieder zurückkommen - doch warum wenn es so 
funktioniert. Nur für den Ehrgeiz? Da bin ich leider raus, verfolge das 
Thema aber gerne lesend weiter.

PS: Wenn du sowas oder andere "Konvertierungen" professionell brauchst, 
mit API und SLA --> PM ;-)

31.01.2018 23:11: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von michael_ (Gast)

31.01.2018 23:14

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> Bedenke: das sind die Telefonverbindungsdetails;

Ich weiß zwar nicht, ob ich dein Problem richtig verstanden habe.

Du hast also nur Text, keine Bilder.

Dann öffne es doch mal im FF PDF-Reader.
Dort markierst du mit der Maus den Text, kopieren, Wordpad oder besser 
Excel öffnen, einfügen.

Die Formatierung ist natürlich weg.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von oszi40 (Gast)

31.01.2018 23:46

Lesenswert?

•

▲
▼

michael_ schrieb:
> Dort markierst du mit der Maus den Text, kopieren

Ähnlicher Vorschlag stand schon ganz oben.

Risikobetrachtung: Was ich zu OCR noch ergänzen wollte: eine 99%ige 
Erkennung heißt, daß die hundertste Zahl falsch sein könnTe! OCR 
erreicht teilweise erst durch Wörterbücher eine gute Erkennungsrate. Ob 
aber in einer Statistik 456 oder 567 Bockwürste verkauft wurden steht in 
keinem Wörterbuch.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von michael_ (Gast)

31.01.2018 23:54

Lesenswert?

•

▲
▼

oszi40 schrieb:
> Bei OCR könnten sich einige Erkennungsfehler einschleichen. Daher sollte
> einen andere Lösung zuverlässiger sein. Falls der ganze Text sichtbar
> ist: erst mal CTRL-A, dann CTRL-C und später mit CTRL-V wieder in ein
> irgendwas.txt einfügen ging nicht? Mit Libreoffice ging auch nicht?

Meinst du das?
Die Tastaturkürzel hab ich überlesen. Ich bin ein Mausmensch.
Mit der Maus kann man aber unbeliebte Inhalte umgehen.

Libreoffice und FF PDF-Reader sind sicher verwandt.

Sollte aber gehen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Georg M. (g_m)

01.02.2018 01:05

Lesenswert?

•

▲
▼

michael_ schrieb:
> Sollte aber gehen.

An diesem PDF-File kann man üben:

http://www.brak-mitteilungen.de/media/BRAK_2015_01.pdf

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von how about man (Gast)

01.02.2018 01:44

Lesenswert?

•

▲
▼

Georg M. schrieb:
> michael_ schrieb:
>> Sollte aber gehen.
>
> An diesem PDF-File kann man üben:

pdffonts BRAK_2015_01.pdf

name                                 type              emb sub uni 
object ID

AdvPS_ZD-Identity-H                  CID Type 0C       yes no  no 
1989  0
AdvPS4C993D-Identity-H               CID Type 0C       yes no  no 
1992  0
AdvPS4C9939-Identity-H               CID Type 0C       yes no  no 
1995  0
AdvPS4C96C8-Identity-H               .....

...  94  weitere! ...

Was ueben, scannen :)

https://en.wikipedia.org/wiki/PostScript_fonts#CID


"CID-keyed fonts may be made without reference to a character collection 
by using an "identity" encoding, such as Identity-H (for horizontal 
writing) or Identity-V (for vertical). Such fonts may each have a unique 
character set, and in such cases the CID number of a glyph is not 
informative;"


wenn es keine Uebereinstimmung mit verbreiten Zeichensaetzen gibt, bspw. 
das  nicht ascii-basiert ist da gibt es ja eine Schnittmenge mit z.B. 
windows1255, UTF-8, UTF-16  usw. was die Zahlen und das Alphabet 
anlangt, dann kommt doch idR. nichts interpretierbares beim copy und 
paste raus.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von screamreader (Gast)

01.02.2018 08:01

Lesenswert?

•

▲
▼

> An diesem PDF-File kann man üben:
> http://www.brak-mitteilungen.de/media/BRAK_2015_01.pdf

Was machen eigentlich screenreader mit solchen verklausulierten PDFs? 
Sind solche PDFs überhaupt noch barrierefrei und für Sehbehinderte 
zugänglich? Nur via OCR mit Restrisiko von Fehldeutungen?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von c.m. (Gast)

01.02.2018 08:02

Lesenswert?

•

▲
▼

ich hab versucht mit iText den text aus dem PDF zu extrahieren, hab aber 
auch nur schrott raus bekommen.
im nächsten versuch habe ich versucht ein PDF1.4 aus dem inhalt des 
originals zu erzeugen, und daraus den text zu extrahieren - selbes 
ergebnis.

ich vermute jetzt mal ins blaue hinein, dass der inhalt der 
originaldatei kein text ist, sondern in irgendeiner art bilder mit 
positionierungsverweisen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von oszi40 (Gast)

01.02.2018 08:14

Angehängte Dateien:

pdf_Test.jpg
23 KB

Lesenswert?

•

▲
▼

c.m. schrieb:
> auch nur schrott raus bekommen.

Diese Test-pdf-Datei bringt spezielle Fonts mit. Auch markieren ging in 
die Hose. Hat schon mal einer den Text maschinell vorlesen lassen? Wäre 
für Sehbehinderte sicher interessant.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

01.02.2018 09:46

Lesenswert?

•

▲
▼

> Mit der Maus kann man aber unbeliebte Inhalte umgehen.
  nicht in meinem Fall: wie ich bereits im gestrigen Post von 12:23 
beschrieben habe.  Mausefalle = Mouse FAIL.

> Libreoffice und FF PDF-Reader sind sicher verwandt.
  FALLS die Verwandtschaft zutreffen sollte, WÜRDEN beide auch unter den 
selben Limitierungen leiden.

> Sollte aber gehen.
  Haette, Taete und Sollte - 3 Brueder die gingen zusammen ...den Bach 
runter.

> Wäre für Sehbehinderte sicher interessant.
  heisser Aspekt der Sache!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

01.02.2018 10:10

Lesenswert?

•

▲
▼

c.m. schrieb:
> ich vermute jetzt mal ins blaue hinein, dass der inhalt der
> originaldatei kein text ist, sondern in irgendeiner art bilder mit
> positionierungsverweisen.

Falsche Vermutung.
Zumindest kann pdfimage zwar an die 270 Bilder extrahieren, nach 
kurzer Schnellsichtung sind dies jedoch echte Bilder (Deko, Hintergrund, 
Kunstvolle Überschriften, usw.) und haben nix mit dem Text an sich zu 
tun.

$ pdfimages -list BRAK_2015_01.pdf 
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image     100     1  index   1   8  image  no      1969  0    12 0.632  100B 100%


Nach pdf2ps sind auch hier drinne massenhaft PDF CharProc zu finden; 
meine Vermutung wie oben: Zeichendefinitionen fuer reinverklausulierte 
Fonts.

$ pdf2ps BRAK_2015_01.pdf - | grep -ic 'PDF CharProc obj_'


Da es sich um ein Dokument aus Anwaltsdunskreisen handelt, wuerde ich 
mich nicht mal wundern wenn eine Weile nach Druck auf Papier sich auch 
noch die Tinte verfluechtigt...  nach e-Ink ist das dann der A-Ink ;-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Georg M. (g_m)

01.02.2018 11:32

Lesenswert?

•

▲
▼

Zitat:
"Often this is done on purpose. I have seen documents that randomly 
remap characters differently for each font in the dot. It is used as a 
form of obfuscation and the only real way to extract text from these 
PDF's is to resort to OCR. There are many financial reports that use 
this type of trick to stop people from extracting their data.

Also, Identity-H is just a 1:1 character mapping for all characters from 
0x0000 to 0xFFFF. ie. Identity is an identity mapping.

Your real problem is the missing /ToUnicode entry in this PDF. I suspect 
there is also an embedded CMap in your PDF that explains why there could 
be 3 bytes per character."

https://stackoverflow.com/questions/17193839/where-can-i-a-mapping-of-identity-h-encoded-characters-to-ascii-or-unicode-chara

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Klaus B. (forrestjump)

01.02.2018 11:40

Lesenswert?

•

▲
▼

nun, das Dokument scheint vor 15 Jahren mit Ghostscript unter Unix und 
LaTex oä. erstellt worden zu sein.
Es hat keine Restriktionen, mit Schrifttyp 3.
Konnte nichts mit Copy und Paste erreichen. Einzig in Acrobat unter OCR 
das hat funktioniert und als Docx Datei abgespeichert. Ein bischen 
holprig, aber wenn man es 3 x gemacht hat dauert es keine 3 Min.

01.02.2018 11:43: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Michael B. (laberkopp)

01.02.2018 11:51

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> Was bisher scheiterte (alle produzieren nur Zeichensalat):

Ich habe die Erfahrung gemacht, daß die verschiedenen Online-Konverter 
sehr unterschiedliche Ergebnisse liefern d,.h. da stecken schon 
konzeptionellell sehr unterschiedliche Verfahrensweisen dahinter.

https://www.zamzar.com/de/convert/pdf-to-txt/
https://www.pdf2txt.de/
http://pdftotext.com/de/
https://www.onlineconverter.com/pdf-to-txt

Vielleicht kann einer davon deine Datei wandeln.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Klaus B. (forrestjump)

01.02.2018 13:42

Lesenswert?

•

▲
▼

es sieht doch eher so aus als wäre der Text in Bitmap
(Raster Fonts)umgewandelt worden.
Da wird es mit dem extrahieren und copy and paste wohl nichts, eher nur 
mit dem OCR Verfahren funktionieren.

Hab mir mal die Seite von Tom Rokicki und seiner Radical Eye Software 
angeschaut. Interessant

https://en.wikipedia.org/wiki/Dvips
http://tug.org/texinfohtml/dvips.html
http://www.radicaleye.com/

When producing postscript files, dvips embeds fonts inside the file. 
Most recent distributions will normally embed scalable fonts, also known 
as Type 1 fonts. Files generated with older distributions, however, may 
embed raster fonts. To substitute raster for scalable fonts in a 
postscript file in a situation where the original dvi file is 
unavailable use a utility called pkfix.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von michael_ (Gast)

01.02.2018 14:03

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> Natuerlich empfinde ich es als aergerlich ein elektronisches Dokument
> (PDF) geliefert zu bekommen welches Text (keine Bilder) enthaelt, dieser
> Text sich aber nur ab Bildschirm/Papierdruck abgelesen weiterverwenden
> laesst.

Leo K. P. schrieb:
> Falsche Vermutung.
> Zumindest kann pdfimage zwar an die 270 Bilder extrahieren, nach
> kurzer Schnellsichtung sind dies jedoch echte Bilder (Deko, Hintergrund,
> Kunstvolle Überschriften, usw.) und haben nix mit dem Text an sich zu
> tun.

Von was redest du nun?
Was ist dein .PDF?

Ich habe jetzt nochmal ein PDF im AR X aufgemacht.
Mit der Maus kann man nichts markieren. Aber alles.

Das habe ich nun in Wordpad und Libre Writer (3.4) eingefügt.

Die Bilder sind weg.
Aber die Formatierung, Schriftgröße, Fett usw ist alles noch da.

Und unter AR X kann man das PDF als Text speichern. Da sind dann 
Formatierungen usw. alle weg.

Mehr kann man eigentlich nicht verlangen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von michael_ (Gast)

01.02.2018 14:19

Lesenswert?

•

▲
▼

Im AR wird noch die Umwandlung in Word/Excel angeboten.

Allerdings nur Online.
Sicher nicht umsonst.

Wer noch mehr will, installiert eben den Adobe Acrobat.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Rufus Τ. F. (rufus)

01.02.2018 14:29

Lesenswert?

•

▲
▼

michael_ schrieb:
> Ich habe jetzt nochmal ein PDF im AR X aufgemacht.

Irgendeine PDF-Datei oder eine von den spezielleren, um die es hier 
geht?

Hast Du das mit der hier verlinkten Datei hinbekommen?

Beitrag "Re: Knacknuss Text aus PDF extrahieren"

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von michael_ (Gast)

01.02.2018 14:50

Lesenswert?

•

▲
▼

Um die Monster PDF vom Georg geht es doch hier nicht.
Das ist nicht der Maßstab!

Ich hab zwei genommen, einmal ein Beschreibung von KiCad und noch eine.
Auf einem anderen Rechner.

Auf dem jetzigen PC:
Hier hat allein das abspeichern ca 4min. gedauert!
Leider habe ich hier kein Office
Die Zeichen sind nicht im Umfang von Wordpad drin.
Irgend ein spezieller Zeichensatz.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

01.02.2018 14:52

Lesenswert?

•

▲
▼

Klaus forrestjump, ich danke Dir auch fuer die Analyse.

> nun, das Dokument scheint vor 15 Jahren mit Ghostscript unter Unix und
> LaTex oä. erstellt worden zu sein.

Ja, sowas erzaehlt pdfinfo.

> Es hat keine Restriktionen, mit Schrifttyp 3.
> Konnte nichts mit Copy und Paste erreichen. Einzig in Acrobat unter OCR
> das hat funktioniert und als Docx Datei abgespeichert. Ein bischen
> holprig, aber wenn man es 3 x gemacht hat dauert es keine 3 Min.

  Nochmals Danke fuer deine Zeit.
  Dein OCR ist in der Tat etwas holprig: viele "0" wurden als "D" 
uebernommen.

  Dank Sören habe ich den Schuloeffel zu OCR mit tesseract gefunden 
und da ist die Trefferquote hoeher. (s. o.)
  Ich werde spaeter noch Versuche anstellen mit vorgegebenem Wörterbuch 
weil in diesen Tabellendaten keine Prosa vorkommt.
  Die beste Vorbereitung fuer OCR ist wohl der "Richtige[TM]" Satz an 
parameter fuer convert ; ein dicker Brocken wenn man nicht aus der 
Druck-/Bildbearbeitungsbranche kommt...


Klaus B. schrieb:
> Hab mir mal die Seite von Tom Rokicki und seiner Radical Eye Software
> angeschaut. Interessant

  Interessant in der Tat: so kommen die Erklaerungen zusammen :-)

  pkfix will ich auch noch probieren. Fuer 12kB "Perlscript" 
installieren sich gerade 600MB an neue Pakete...
  Die Hoffnung dass dies noch was bringt habe ich jedoch an einem 
kleinen Ort.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Leo K. P. (Firma: Solder Cooler Inc.) (leo_kp)

01.02.2018 14:59

Lesenswert?

•

▲
▼

michael_ schrieb:
> Im AR wird noch die Umwandlung in Word/Excel angeboten.
> Wer noch mehr will, installiert eben den Adobe Acrobat.

Ganz sicher auf Linux.
Wer lesen kann ist klar im Vorteil.


michael_ schrieb:
> Leo K. P. schrieb:
>> Natuerlich empfinde ich es als aergerlich ein elektronisches Dokument
>> (PDF) geliefert zu bekommen
:
> Von was redest du nun?
> Was ist dein .PDF?

  meine Datei welche ich wegen Datenschutz nicht hier im Forum 
beifuege.

> Leo K. P. schrieb:
>> Falsche Vermutung.
>> Zumindest kann pdfimage zwar an die 270 Bilder extrahieren, nach
:
> Von was redest du nun?
> Was ist dein .PDF?

  die verlinkte von BRAK.

  Ich bitte um Entschuldigung fuer die Verwirrung.


  Frei nach G.Orwell "alle PDF sind gleich, nur einige sind gleicher.".

  Der Fokus dieses Threads ist wie man bei solchen "gleicheren" PDFs an 
den Text gelangen kann.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Rufus Τ. F. (rufus)

01.02.2018 15:25

Lesenswert?

•

▲
▼

michael_ schrieb:
> Um die Monster PDF vom Georg geht es doch hier nicht.
> Das ist nicht der Maßstab!

Natürlich ist das der Maßstab.

Es geht nicht darum, stinknormale Standard-PDF-Dateien zu verarbeiten. 
Das funktioniert, das ist bestens bekannt, dafür gibt es zig Tools. Bei 
stinknormalen Standard-PDF-Dateien steht der Nutztext als lesbarer Text 
in der Datei drin.

Hier geht es aber um PDF-Dateien, bei denen der Nutztext eben nicht als 
lesbarer Text drinsteht, und bei denen jedes Tool zur Textextraktion 
versagt, das nicht OCR verwendet.

Wie solche PDF-Dateien funktionieren, ist auch klar: Der zur Anzeige 
verwendete Font wird auf eine eigene Zeichenbelegung heruntergebrochen 
(nämlich nur die Zeichen, die tatsächlich verwendet werden), die 
Zeichencodes neu numeriert und der Text in diese neue, individuelle 
Codierung übersetzt.

Beispiel:
Es werden ausschließlich die Ziffern von 0-9 und der Dezimalpunkt 
dargestellt.

Der reduzierte Zeichensatz enthält also nur die Glyphen . und 0-9. Diese 
elf Zeichen werden mit den Zeichencodes 0-10 neu belegt, und zwar so:

. = 0
0 = 1
1 = 2
2 = 3
...
9 = 10


Soll nun der Text "123.45" im Dokument codiert werden, steht dort nicht 
die Zeichenfolge 0x31 0x32 0x33 0x2e 0x34 0x45, sondern die Zeichenfolge 
0x02 0x03 0x04 0x00 0x05 0x06


Das entscheidende ist: Die Tabelle oben ist nirgends im Dokument 
enthalten, sie geht bei der Dokumentenerstellung verloren und kann nur 
durch Analyse der den Zeichencodes zugeordneten Bilder (Glyphen) 
rekonstriuert werden.


Wird es klarer?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Marcus H. (mharnisch)

01.02.2018 17:35

Lesenswert?

•

▲
▼

Rufus Τ. F. schrieb:
> Das entscheidende ist: Die Tabelle oben ist nirgends im Dokument
> enthalten, sie geht bei der Dokumentenerstellung verloren und kann nur
> durch Analyse der den Zeichencodes zugeordneten Bilder (Glyphen)
> rekonstriuert werden.

Im Prinzip ja. Offenbar kann man die Tabellen bei Verwendung bekannter 
Fonts rekonstruieren. Ich vermute, dass das in meinem Fall 
(Kontoauszüge, s.o) erfolgreich war.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von bastel_ (Gast)

01.02.2018 17:54

Lesenswert?

•

▲
▼

Ich habe dieses BRAK PDF mal durch Tesseract (ältere Version) mit 
deu+eng gejagt, gerendert wird das Ganze in Java mit PDFBox mit 
Antialiasing an und automatischem Kontrast, der Extrakt ist sehr gut 
(war zu erwarten, ist ja kein Scan).

Um Ärger mit Anwälten zu vermeiden als Zitat nur mal die Werbanzeige auf 
Seite 5:
"www.volkswagen.de/selbststaendige


Steigern Sie Ihr Potenzial. Mit Professional Class. Volkswagen für 
Selbstständige.

Ihr täglicher Antrieb sind maßgeschneiderte Lösungen, die Sie Ihren 
Kunden garantieren. Und genau das bieten wir Ihnen auch — mit 
Professional Class. Profitieren Sie von der attraktiven, 
modellabhängigen Prämie und kommen Sie in den Genuss zahlreicher 
Vorteile beim GeschäftsfahrzeugLeasing. Das Plus zu Ihrem Leasingvertrag 
sind folgende

komfortable Mobilitätsmodule:

0 Wartung 8c Verschleiß-Aktion ° ReifenClever-Paket 0 KaskoSchutz ° 
Europa Tank 8c Service Karte Bonus 0 HattpﬂichtSchutz

Kraftstoffverbrauch des GolfVariant in 1/100 km: kombiniert 5,3-3,3,

COz-Emissionen in g/km: kombiniert 124-87.


Professional Class Volkswagen für Selbstständige Das Auto.

Wartung & Verschleiß-Aktion, KaskoSchutz‚ HaftpflichtSchutz (nur in 
Verbindung mit KaskoSchutz‚ Leistungen gem. Bedingungen der Allianz 
Versicherungs-AG), ReifenClever-Paket (verfügbar für ausgewählte 
Modelle), Europa Tank & Service Karte Bonus jeweils nur in Verbindung 
mit GeschäftsfahrzeugLeasing der Volkswagen Leasing GmbH, Gifhorner Str. 
57, 38112 Braunschweig. Bonität vorausgesetzt. Prämie erhältlich bei 
nahezu jeder Neuwagenbestellung. Professional Class ist einAngebot für 
alle Selbstständigen. Einzelheiten zur jeweils erforderlichen 
Legitimation erfahren Sie bei Ihrem teilnehmenden Volkswagen Partner. 
Abbildung zeigt Sonderausstattung gegen Mehrpreis."

Das passt schon einigermaßen

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von michael_ (Gast)

01.02.2018 22:54

Angehängte Dateien:

getting_started_in_kicad.rtf (91,8 KB)

Lesenswert?

•

▲
▼

Leo K. P. schrieb:
> michael_ schrieb:
>> Im AR wird noch die Umwandlung in Word/Excel angeboten.
>> Wer noch mehr will, installiert eben den Adobe Acrobat.
>
> Ganz sicher auf Linux.
> Wer lesen kann ist klar im Vorteil.

Erstens ist das dein Problem!
Und du meinst, dass du keine Word/Excel Dateien mit irgendeinen 
LINUX-Programm aufmachen kannst?
Dann lerne es.

Leo K. P. schrieb:
> meine Datei welche ich wegen Datenschutz nicht hier im Forum
> beifuege.

Die will ich auch nicht sehen.
Du hast aber zwei Beispiele angeführt.
Wenn es der zuerst genannte Verbindungsnachweis ist, ist das Ziel 
erreicht.

Wenn man die Schrift:

AdvPS4C9939-Identity-H
Mit 10,5,  7,5 usw.

hat, dann kann man auch das BRAK lesen.
Wegen der Bindestriche ist vermutlich das Anwalts-BS ein UNIX.

Rufus Τ. F. schrieb:
> michael_ schrieb:
>> Um die Monster PDF vom Georg geht es doch hier nicht.
>> Das ist nicht der Maßstab!
>
> Natürlich ist das der Maßstab.
>
> Es geht nicht darum, stinknormale Standard-PDF-Dateien zu verarbeiten.

Doch.
Es ist ja wie zu oft hier, dass vom ursprünglichen Thema abgewichen wird 
und ausufert zu Extrembeispielen.

Im Anhang noch das KiCad Beispiel.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von how about man (Gast)

02.02.2018 00:00

Lesenswert?

•

▲
▼

michael_ schrieb:

>
> Wenn man die Schrift:
>
> AdvPS4C9939-Identity-H
> Mit 10,5,  7,5 usw.
>
> hat, dann kann man auch das BRAK lesen.


Das stimmt doch aber gerade nicht. Zumal es garkeine AdvPS4C9939 gibt, 
das ist ein dem Konstrukt zugewiesener Name.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von how about man (Gast)

02.02.2018 00:09

Lesenswert?

•

▲
▼

michael_ schrieb:

> Im Anhang noch das KiCad Beispiel.


was soll das sagen?

Das ist anders. 9 der 11  Schriften haben ein code-mapping.
Das  heist sie werden korrekt in dein windows UTF-16 uebersetzt.
Anders als die Dokumente um die es hier geht.

http://docs.kicad-pcb.org/4.0.7/en/getting_started_in_kicad.pdf

name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
OWISLI+LMSans10-Bold-Identity-H      CID Type 0C       yes yes yes      7  0
NGWKCU+LMRoman10-Regular-Identity-H  CID Type 0C       yes yes yes     13  0
FODOZW+LMSans10-Regular-Identity-H   CID Type 0C       yes yes yes     15  0
RBRHYJ+LMRoman10-Bold-Identity-H     CID Type 0C       yes yes yes     20  0
UABYAO+LMRoman10-Italic-Identity-H   CID Type 0C       yes yes yes     56  0
XONFGA+LMMono10-Regular-Identity-H   CID Type 0C       yes yes yes     66  0
NVGLFK+VL-Gothic-Regular             CID TrueType      yes yes yes     68  0
HMALDC+LMSans10-Oblique-Identity-H   CID Type 0C       yes yes yes    122  0
HWDBDD+LMMono9-Regular-Identity-H    CID Type 0C       yes yes yes    206  0
MAFNAF+CMSY9                         Type 1C           yes yes no     207  0
EXVTCD+CMMI9                         Type 1C           yes yes no     208  0

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von how about man (Gast)

02.02.2018 00:24

Lesenswert?

•

▲
▼

how about man schrieb:
> michael_ schrieb:
>
>> Im Anhang noch das KiCad Beispiel.
>
>
> was soll das sagen?
>
> Das ist anders. 9 der 11  Schriften haben ein code-mapping.


Nicht code vermutlich wird cmapping character-mapping heissen, ist aber 
egal.


Versuch mal zu verstehen was der hier per java macht:
https://stackoverflow.com/a/39644941

---

Muss sich aber schon um etwas besonderes handeln das immer wieder kehrt 
als das man den Aufwand treibt. Z.B. die Kontoauszuege.

Aber das ist genau das was den Threadersteller eben beschaeftigt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Knacknuss Text aus PDF extrahieren

von Hans Ö. (hansmann)

13.07.2022 16:46

Lesenswert?

•

▲
▼

hallo zusammen,
kann man denn jetzt,zeilen oder nummern von einer telekom evn pdf 
entfernen oder löschen?
oder geht das nicht?

für eure hilfe wäre ich dankbar!!!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC Hard- und Software Knacknuss Text aus PDF extrahieren