Forum: Offtopic Raupenhaus-Wasserzeichen entfernen

von Axel S. (a-za-z0-9)

14.12.2017 15:46

Angehängte Dateien:

butterfly.sh (459 Bytes)
pdfchunk2.pl (537 Bytes)

Lesenswert?

•

Moin,

das Raupenhaus ist zwar seit langer Zeit abgeschaltet, aber der eine 
oder andere wird vielleicht noch PDF-Dokumente aus deren Fundus 
gesichert haben. Was mich dabei schon immer gestört hat, ist das 
häßliche Wasserzeichen in den Dokumenten. Heute habe ich mich mal 
hingesetzt und eine Lösung gehackt.

Es sind zwei Skripte, das erste (Perl) macht die eigentliche Arbeit und 
das  andere läuft einfach nur über die PDF-Files und wendet das erste 
an. Zusätzlich benötigt wird das PDF Toolkit [1][2] und ein 
Perl-Interpreter. Die beiden Skripte (angehängt) müssen irgendwo im Pfad 
liegen, z.B. in $HOME/bin.

Beispiel:

.../DDR-Technik/Messtechnik/Zähler G-2005.500 $butterfly.sh 
skipping chunk #87
skipping chunk #807
watermark removed from G-2005-500_SM.pdf
skipping chunk #109
watermark removed from G-2005-500schemat.pdf


Wie es funktioniert: pdftk wird verwendet, um komprimierte PDF Files zu 
entpacken und nach der Behandlung wieder zu packen. Das Perl-Skript 
spaltet das PDF anhand der "obj" und "endobj" Marker in einzelne Objekte 
und entfernt das Objekt, das den transparenten, schräg liegenden 
Schriftzug im Hintergrund enthält, anhand der charakeristischen 
Transformationsmatrix. Da das alles Scans (vulgo: Bitmaps) sind, ist es 
praktisch ausgeschlossen, daß diese Matrix an anderer Stelle auftaucht.

Ein zweites Wasserzeichen ist der Text "kostenloser Download von 
www.raupenhaus.de" hochkant an der Seite. Hier kann man nicht das ganze 
Objekt löschen; deswegen ersetze ich nur den Text mit einem Leerzeichen.

Ich habe damit jetzt alle meine Downloads vom Raupenhaus nachbehandelt 
und konnte keine negativen Effekte feststellen.


PS: warum "butterfly.sh"? Weil aus Raupen Schmetterlinge werden ;)


[1] https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
[2] Linux-User installieren das Paket "pdftk"