Moin,
das Raupenhaus ist zwar seit langer Zeit abgeschaltet, aber der eine
oder andere wird vielleicht noch PDF-Dokumente aus deren Fundus
gesichert haben. Was mich dabei schon immer gestört hat, ist das
häßliche Wasserzeichen in den Dokumenten. Heute habe ich mich mal
hingesetzt und eine Lösung gehackt.
Es sind zwei Skripte, das erste (Perl) macht die eigentliche Arbeit und
das andere läuft einfach nur über die PDF-Files und wendet das erste
an. Zusätzlich benötigt wird das PDF Toolkit [1][2] und ein
Perl-Interpreter. Die beiden Skripte (angehängt) müssen irgendwo im Pfad
liegen, z.B. in $HOME/bin.
Beispiel:
1 | .../DDR-Technik/Messtechnik/Zähler G-2005.500 $butterfly.sh
|
2 | skipping chunk #87
|
3 | skipping chunk #807
|
4 | watermark removed from G-2005-500_SM.pdf
|
5 | skipping chunk #109
|
6 | watermark removed from G-2005-500schemat.pdf
|
Wie es funktioniert: pdftk wird verwendet, um komprimierte PDF Files zu
entpacken und nach der Behandlung wieder zu packen. Das Perl-Skript
spaltet das PDF anhand der "obj" und "endobj" Marker in einzelne Objekte
und entfernt das Objekt, das den transparenten, schräg liegenden
Schriftzug im Hintergrund enthält, anhand der charakeristischen
Transformationsmatrix. Da das alles Scans (vulgo: Bitmaps) sind, ist es
praktisch ausgeschlossen, daß diese Matrix an anderer Stelle auftaucht.
Ein zweites Wasserzeichen ist der Text "kostenloser Download von
www.raupenhaus.de" hochkant an der Seite. Hier kann man nicht das ganze
Objekt löschen; deswegen ersetze ich nur den Text mit einem Leerzeichen.
Ich habe damit jetzt alle meine Downloads vom Raupenhaus nachbehandelt
und konnte keine negativen Effekte feststellen.
PS: warum "butterfly.sh"? Weil aus Raupen Schmetterlinge werden ;)
[1] https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
[2] Linux-User installieren das Paket "pdftk"