Forum: PC Hard- und Software Tabelle aus PDF erstellen

von Wikijaner (Gast)

05.02.2023 17:59

Lesenswert?

•

Kennt jemand eine  Möglichkeit um eine Tabelle speziell diese 
hier:https://docplayer.org/5979922-Betriebsliste-vorhandene-unterlagen.html
wieder in eine Excel, Libre Calc oder ähliches es zu extrahieren?
Ziel sollte sein eine Liste für Wikipedia zu erzeugen wofür diese 
Tabelle (1.Spalte) als Datengrundlage dienen soll. Die Branchen, Orte 
und bestehenden Wikipediaartikel herauszusuchen ist schon genug arbeit.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von oszi40 (Gast)

05.02.2023 18:09

Lesenswert?

•

▲
▼

pdf-Converter http://pdftoword-converter.online benutzen oder notfalls
pdf to txt und als csv in xls importieren? Dann mit ausreichend 
Excel-Kenntnissen bearbeiten.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von Mario M. (thelonging)

05.02.2023 18:14

Lesenswert?

•

▲
▼

https://greenits.ch/blog/so-importieren-sie-den-inhalt-von-pdf-dokumenten-in-excel

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von Wikijaner (Gast)

05.02.2023 18:27

Lesenswert?

•

▲
▼

oszi40 schrieb:
> pdf-Converter http://pdftoword-converter.online benutzen oder notfalls
> pdf to txt und als csv in xls importieren? Dann mit ausreichend
> Excel-Kenntnissen bearbeiten.

Der Konverter funktioniert nicht, als download bekommt man nur eine 
ZIP-Datei mit dem gleichen PDF was man hochgeladen hat.

Mario M. schrieb:
> 
https://greenits.ch/blog/so-importieren-sie-den-inhalt-von-pdf-dokumenten-in-excel

Das werde ich morgen mal auf Arbeit probieren privat nutze ich nur 
LibreCalc.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von Rudi Ratlos (Gast)

05.02.2023 20:37

Lesenswert?

•

▲
▼

Wikijaner schrieb:
> Der Konverter funktioniert nicht,

Wenn du ein OCR Programm hast, dann kannst das PDF aus dem Acrobat(Pro) 
als *.jpg oder viele andere Formate abspeichern, und das OCR extrahiert 
daraus die Tabellen.

xml,tiff,txt,rtf,ps,png,htm,eps, div.jpg-Formate,
Wenn du das hier hochlädst, ich kann mit w2k das nicht runterladen, kann 
ich dir das gerne exportieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von linux (Gast)

05.02.2023 20:41

Lesenswert?

•

▲
▼

das PDF mit pdftoppm in ein PNG wandeln, dann mit tesseract 
OCR-konvertierung

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von linux (Gast)

05.02.2023 20:43

Lesenswert?

•

▲
▼

das PDF mit pdftoppm in ein PNG wandeln, dann mit tesseract 
OCR-konvertierung, funktioniert auch dann, wenn es sich um ein 
grafisches PDF handelt

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von oszi40 (Gast)

05.02.2023 21:50

Lesenswert?

•

▲
▼

Ein .pdf kann Buchstaben oder Bilder enthalten.
Bei der Rückwandlung von Bildern zu Text können sich einige 
Erkennungsfehler einschleichen. Deswegen OCR zu Text gründlich 
prüfen!!!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von Marc G. (marcm)

06.02.2023 07:46

Lesenswert?

•

▲
▼

die ganze Tabelle im PDF ist nur reiner Text... kannst per Copy & Paste 
in Notepad/Word/Excel reinkopieren... allerdings must du die Spalten 
trennen /  sortieren, ggf. Makros benutzen...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Tabelle aus PDF erstellen

von Karl Käfer (Gast)

06.02.2023 15:20

Angehängte Dateien:

extract-pdf-tables.py (1,06 KB) | Codeansicht
tables.csv.gz (410 KB)
tables.pkl.gz (378 KB)
tables.xlsx (831 KB)

Lesenswert?

•

▲
▼

Wikijaner schrieb:
> Kennt jemand eine  Möglichkeit um eine Tabelle speziell diese
> hier:https://docplayer.org/5979922-Betriebsliste-vorhandene-unterlagen.html
> wieder in eine Excel, Libre Calc oder ähliches es zu extrahieren?

Ja, ich habe gerade 486 Tabellen mit einem Python-Skript extrahiert, in 
einen Pandas DataFrame gepackt und die Zeilenumbrüche entfernt. Folgende 
Formate findest Du in den Anhängen:

extract-pdf-tables.py -- mein Skript
tables.csv.gz         -- CSV-Datei, mit gzip gepackt
tables.pkl.gz         -- serialisierter, gzip'pter Pandas-DataFrame
tables.xlsx           -- Excel


> Ziel sollte sein eine Liste für Wikipedia zu erzeugen wofür diese
> Tabelle (1.Spalte) als Datengrundlage dienen soll. Die Branchen, Orte
> und bestehenden Wikipediaartikel herauszusuchen ist schon genug arbeit.

Auch das ließe sich mit Python, Pandas und ein bisschen Gehirn eventuell 
etwas... vereinfachen, wenn Du mir genauer sagen kannst, was Du da genau 
herausbekommen möchtest.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net