PDF-Formulare automatisch auswerten – PDF-Formulare to CSV

Erstellt am 31. März 2019 von It_berater

Manchmal möchte man mehrere PDF-Formulare automatisch auswerten. Z.B. von einer Umfrage. Also wie bekommt man die im PDF-Formular eingegebenen Felder aller PDF Dateien eines Verzeichnises in eine Excel CSV Datei für die Auswertung? Wie man PDF-Formulare kostenlos erstellt, hatte ich ja schon hier beschrieben.

Das geht mit dem Raspberry Pi (oder auch Mac und Windows) ganz einfach mit dem Java Tool twpdfformulartocsv das ich implementiert habe. Es muss mind. Java 8 auf dem Pi installiert sein. Das kann man mit java -version überprüfen. Es kommt auf dem Pi Zero bei mir

openjdk version "1.8.0_181"
OpenJDK Runtime Environment (build 1.8.0_181-8u181-b13-2~deb9u1-b13)
OpenJDK Client VM (build 25.181-b13, mixed mode)

Hier nun die Schritte, um es zu installieren.

1. Das Archive mit dem twpdfformulartocsv_0.0.1-2_all.deb hier ZIP kostenlos laden und in das /home/pi Verzeichnis auspacken.

2. Installieren sudo dpkg -i twpdfformulartocsv_0.0.1-2_all.deb
Ausgabe:

Vormals nicht ausgewähltes Paket twpdfformulartocsv wird gewählt.
(Lese Datenbank ... 83201 Dateien und Verzeichnisse sind derzeit installiert.)
Vorbereitung zum Entpacken von twpdfformulartocsv_0.0.1-2_all.deb ...
Entpacken von twpdfformulartocsv (0.0.1-2) ...
twpdfformulartocsv (0.0.1-2) wird eingerichtet ...

3. Rechte anpassen sudo chown -R pi:pi /home/pi/twpdfformulare

4. In das Verzeichnis wechseln cd /home/pi/twpdfformulare

6. PDF-Formulare mit Testdaten in das /home/pi/twpdfformulare/beispiele verzeichnis kopieren (Beispiele hier laden PDF-Testdaten)

5. Programm mit den Testdatenverzeichnis starten: java -jar twpdfformulartocsv-0.0.1.jar ./PDF-Testdaten

Das Ergebnis wird in die Datei /home/pi/twpdfformulare/formular-daten.csv geschrieben. Als Trennzeichen wird das # verwendet, da Komma und Semikolon oft in Textfeldern eingegeben werden. Ein erneuter Lauf, überschreibt die Ergebnissdatei wieder. Hier die Ausgabe mit den obigen Beispieldaten:

cat formular-daten.csv
Verzeichnis#PDF-Dateiname#Feldname#Inhalt#
./PDF-Testdaten#pdf-formular-beispiel-1.pdf#Kombinationsfeld 1#[Immer mit SHIFT+ENTER]#
./PDF-Testdaten#pdf-formular-beispiel-leer.pdf#Kombinationsfeld 1#[]#
./PDF-Testdaten#pdf-formular-beispiel-2.pdf#Kombinationsfeld 1#[Auswahl zwei]#

Die Daten können dann in Excel importiert und ausgewertet werden. Dazu die Funktion „Text in Spalten“ im Daten Menü mit den selektierten Daten verwenden:

Dann als Trennkenzeichen das # unter „Anderes“ auswählen:

und fertig:

und formatieren:

Will man das Programm wieder entfernen geht das mit

sudo dpkg -r twpdfformulartocsv

TODO:
-Ausgabedateinamen als Parameter übergeben
-Scripte und Beispiele in das deb Archive
-Trennkennzeichen als Parameter übergeben
-GUI
-oder was braucht ihr noch? Ideen und Feedback gern per E-Mail.

Aber jetzt erst mal die Uhren umstellen … 😉

Ähnliche Artikel:

  1. Mit alien von rpm nach deb und zurück
  2. OpenOffice Quickie: Wie können Auswahlboxen für PDF-Formulare mit mehreren Werten erstellt werden?
  3. Wie können kostenlos PDF Formulare schnell mit OpenOffice erstellt werden?