Forum: PC-Programmierung PDF-Formularfeld auslesen


von Igel (Gast)


Lesenswert?

Hallo,

ich will aus einer PDF-Datei einige Formularfelder auslesen. Mit 
Libre-Office habe ich mir ein PDF-Rohling erstellt und dort 
Formularfelder eingefügt. Zwei dieser Feldnamen lauten Geraetenummer, 
Datum und Testergebnis.

Diese beiden Felder möchte ich auslesen und weiterverwenden, um sie z.B. 
in einer separaten Exceltabelle zu speichern, um dort eine Übersicht zu 
bekommen. In dem Verzeichnis liegen z.B. 1000 solcher Prüfdokumente als 
PDF vor.


Ich habe die PDF-Datei mit einem HEX-Editor geöffnet und dort z.B. nach 
dem Formularfeld gesucht - "Geraetenummer". Leider hat das kein 
brauchbares Ergebnis geliefert.

Ideal wäre ein Befehlssatz, der z.B. in Python so lautet:

Datum = getPDF_Formularfeld(pdf_file, 'Geraetenummer')

Kann man generell PDF-Dateien irgendwie nach so einem Schema auslesen, 
so wie man z.B. Inhalte von XML-Files auslesen kann?

von c.m. (Gast)


Lesenswert?

ich mach das mit iText (java/c#), wenn du python benutzen willst, 
versuchs mal mit
https://www.google.de/search?q=python+pdf+parser+acrofields

von Igel (Gast)


Lesenswert?

meinst du, das Programm taugt was:

https://gist.github.com/lincank/3696512

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.