Forum: PC Hard- und Software Tabelle aus PDF erstellen


von Wikijaner (Gast)


Lesenswert?

Kennt jemand eine  Möglichkeit um eine Tabelle speziell diese 
hier:https://docplayer.org/5979922-Betriebsliste-vorhandene-unterlagen.html
wieder in eine Excel, Libre Calc oder ähliches es zu extrahieren?
Ziel sollte sein eine Liste für Wikipedia zu erzeugen wofür diese 
Tabelle (1.Spalte) als Datengrundlage dienen soll. Die Branchen, Orte 
und bestehenden Wikipediaartikel herauszusuchen ist schon genug arbeit.

von oszi40 (Gast)


Lesenswert?

pdf-Converter http://pdftoword-converter.online benutzen oder notfalls
pdf to txt und als csv in xls importieren? Dann mit ausreichend 
Excel-Kenntnissen bearbeiten.

von Mario M. (thelonging)


Lesenswert?


von Wikijaner (Gast)


Lesenswert?

oszi40 schrieb:
> pdf-Converter http://pdftoword-converter.online benutzen oder notfalls
> pdf to txt und als csv in xls importieren? Dann mit ausreichend
> Excel-Kenntnissen bearbeiten.

Der Konverter funktioniert nicht, als download bekommt man nur eine 
ZIP-Datei mit dem gleichen PDF was man hochgeladen hat.

Mario M. schrieb:
> 
https://greenits.ch/blog/so-importieren-sie-den-inhalt-von-pdf-dokumenten-in-excel

Das werde ich morgen mal auf Arbeit probieren privat nutze ich nur 
LibreCalc.

von Rudi Ratlos (Gast)


Lesenswert?

Wikijaner schrieb:
> Der Konverter funktioniert nicht,

Wenn du ein OCR Programm hast, dann kannst das PDF aus dem Acrobat(Pro) 
als *.jpg oder viele andere Formate abspeichern, und das OCR extrahiert 
daraus die Tabellen.

xml,tiff,txt,rtf,ps,png,htm,eps, div.jpg-Formate,
Wenn du das hier hochlädst, ich kann mit w2k das nicht runterladen, kann 
ich dir das gerne exportieren.

von linux (Gast)


Lesenswert?

das PDF mit pdftoppm in ein PNG wandeln, dann mit tesseract 
OCR-konvertierung

von linux (Gast)


Lesenswert?

das PDF mit pdftoppm in ein PNG wandeln, dann mit tesseract 
OCR-konvertierung, funktioniert auch dann, wenn es sich um ein 
grafisches PDF handelt

von oszi40 (Gast)


Lesenswert?

Ein .pdf kann Buchstaben oder Bilder enthalten.
Bei der Rückwandlung von Bildern zu Text können sich einige 
Erkennungsfehler einschleichen. Deswegen OCR zu Text gründlich 
prüfen!!!

von Marc G. (marcm)


Lesenswert?

die ganze Tabelle im PDF ist nur reiner Text... kannst per Copy & Paste 
in Notepad/Word/Excel reinkopieren... allerdings must du die Spalten 
trennen /  sortieren, ggf. Makros benutzen...

von Karl Käfer (Gast)


Angehängte Dateien:

Lesenswert?

Wikijaner schrieb:
> Kennt jemand eine  Möglichkeit um eine Tabelle speziell diese
> hier:https://docplayer.org/5979922-Betriebsliste-vorhandene-unterlagen.html
> wieder in eine Excel, Libre Calc oder ähliches es zu extrahieren?

Ja, ich habe gerade 486 Tabellen mit einem Python-Skript extrahiert, in 
einen Pandas DataFrame gepackt und die Zeilenumbrüche entfernt. Folgende 
Formate findest Du in den Anhängen:
1
extract-pdf-tables.py -- mein Skript
2
tables.csv.gz         -- CSV-Datei, mit gzip gepackt
3
tables.pkl.gz         -- serialisierter, gzip'pter Pandas-DataFrame
4
tables.xlsx           -- Excel

> Ziel sollte sein eine Liste für Wikipedia zu erzeugen wofür diese
> Tabelle (1.Spalte) als Datengrundlage dienen soll. Die Branchen, Orte
> und bestehenden Wikipediaartikel herauszusuchen ist schon genug arbeit.

Auch das ließe sich mit Python, Pandas und ein bisschen Gehirn eventuell 
etwas... vereinfachen, wenn Du mir genauer sagen kannst, was Du da genau 
herausbekommen möchtest.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.