Kennt jemand eine Möglichkeit um eine Tabelle speziell diese hier:https://docplayer.org/5979922-Betriebsliste-vorhandene-unterlagen.html wieder in eine Excel, Libre Calc oder ähliches es zu extrahieren? Ziel sollte sein eine Liste für Wikipedia zu erzeugen wofür diese Tabelle (1.Spalte) als Datengrundlage dienen soll. Die Branchen, Orte und bestehenden Wikipediaartikel herauszusuchen ist schon genug arbeit.
pdf-Converter http://pdftoword-converter.online benutzen oder notfalls pdf to txt und als csv in xls importieren? Dann mit ausreichend Excel-Kenntnissen bearbeiten.
oszi40 schrieb: > pdf-Converter http://pdftoword-converter.online benutzen oder notfalls > pdf to txt und als csv in xls importieren? Dann mit ausreichend > Excel-Kenntnissen bearbeiten. Der Konverter funktioniert nicht, als download bekommt man nur eine ZIP-Datei mit dem gleichen PDF was man hochgeladen hat. Mario M. schrieb: > https://greenits.ch/blog/so-importieren-sie-den-inhalt-von-pdf-dokumenten-in-excel Das werde ich morgen mal auf Arbeit probieren privat nutze ich nur LibreCalc.
Wikijaner schrieb: > Der Konverter funktioniert nicht, Wenn du ein OCR Programm hast, dann kannst das PDF aus dem Acrobat(Pro) als *.jpg oder viele andere Formate abspeichern, und das OCR extrahiert daraus die Tabellen. xml,tiff,txt,rtf,ps,png,htm,eps, div.jpg-Formate, Wenn du das hier hochlädst, ich kann mit w2k das nicht runterladen, kann ich dir das gerne exportieren.
das PDF mit pdftoppm in ein PNG wandeln, dann mit tesseract OCR-konvertierung
das PDF mit pdftoppm in ein PNG wandeln, dann mit tesseract OCR-konvertierung, funktioniert auch dann, wenn es sich um ein grafisches PDF handelt
Ein .pdf kann Buchstaben oder Bilder enthalten. Bei der Rückwandlung von Bildern zu Text können sich einige Erkennungsfehler einschleichen. Deswegen OCR zu Text gründlich prüfen!!!
die ganze Tabelle im PDF ist nur reiner Text... kannst per Copy & Paste in Notepad/Word/Excel reinkopieren... allerdings must du die Spalten trennen / sortieren, ggf. Makros benutzen...
Wikijaner schrieb: > Kennt jemand eine Möglichkeit um eine Tabelle speziell diese > hier:https://docplayer.org/5979922-Betriebsliste-vorhandene-unterlagen.html > wieder in eine Excel, Libre Calc oder ähliches es zu extrahieren? Ja, ich habe gerade 486 Tabellen mit einem Python-Skript extrahiert, in einen Pandas DataFrame gepackt und die Zeilenumbrüche entfernt. Folgende Formate findest Du in den Anhängen:
1 | extract-pdf-tables.py -- mein Skript |
2 | tables.csv.gz -- CSV-Datei, mit gzip gepackt |
3 | tables.pkl.gz -- serialisierter, gzip'pter Pandas-DataFrame |
4 | tables.xlsx -- Excel |
> Ziel sollte sein eine Liste für Wikipedia zu erzeugen wofür diese > Tabelle (1.Spalte) als Datengrundlage dienen soll. Die Branchen, Orte > und bestehenden Wikipediaartikel herauszusuchen ist schon genug arbeit. Auch das ließe sich mit Python, Pandas und ein bisschen Gehirn eventuell etwas... vereinfachen, wenn Du mir genauer sagen kannst, was Du da genau herausbekommen möchtest.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.