Hi,
immer wieder finde ich dokumente, die leider nicht als Datei speicherbar
sind, weil sie mit einem Proprietären viewer dargestellt werden, der
keinen Download zulässt. (in diesem Fall ein Liederheft von einem
Segeltörn auf dem Schiff Mytilus) Heute habe ich mich durch
seitenquellcodes gekämpft und zumindest für yumpu.com eine gute lösung
gefunden, um die inhalte zumindest besser als per screenshot zu
speichern. Ich möchte das hier veröffentlichen um anderen mit dem
gleichen Problem zu helfen, weil diese Seite doch ganz gut bei Google
platziert ist und es auch mal um technische dokumente gehen kann, also
durchaus den ein oder anderen User betrifft.
1. im Seitenquelltext findet ihr einen link zu eine .json Datei:
1 | $.ajax({
|
2 | type: "GET",
|
3 | url: "https://www.yumpu.com/de/document/json/21293549",
|
4 | dataType: (navigator.userAgent.match(/msie/i)) ? "json" : "json", // $.browser.msie didn't work with jQ1.9.1 -> change to navigator.userAgent.match(/msie/i) ... ($.browser.msie) ? "text" : "xml",
|
5 | success: function(data) {
|
darin wiederum sind die pfade zu hochauflösenden Pixelgrafiken
seitenweise hinterlegt:
1 | "base_path":"https:\/\/images.yumpu.com\/yumpu.com\/000\/021\/078\/076\/1383529681_7104\/","secure_base_path":"","language":"de","width":452,"height":640,"zoom_factor":2.5,"pages":[{"nr":1,"images":{"small":"small\/D_-_Stammaktiv000001.jpg","zoom":"zoom\/D_-_Stammaktiv000001.jpg"},"elements":[]},{"nr":2,"images":{"small":"small\/D_-_Stammaktiv000002.jpg","zoom":"zoom\/D_-_Stammaktiv000002.jpg"},"elements":[]},{"nr":3,"images":{"small":"small\/D_-_Stammaktiv000003.jpg","zoom":"zoom\/D_-_Stammaktiv000003.jpg"},"elements":[]},{"nr":4,"images":{"small":"small\/D_-_Stammaktiv000004.jpg","zoom":"zoom\/D_-_Stammaktiv000004.jpg"}
|
dort finden wir unter "base path":
1 | https:\/\/images.yumpu.com\/yumpu.com\/000\/021\/078\/076\/1383529681_7104\/
|
und als "elements" "zoom":
1 | zoom\/D_-_Stammaktiv000001.jpg
|
zusammengesetz kommen wir auf folgende seite und finden dort ein schönes
großes .jpeg was wir speichern können:
https://images.yumpu.com/yumpu.com/000/021/078/076/1383529681_7104/zoom/D_-_Stammaktiv000001.jpg
das machen wir mit allen seiten, wenn es viele seiten sind, schreibt
euch ein script dafür.
Die Seiten mit endung 000001.jpg 00002.jpg usw. kann man dan in ein
neues pdf importieren.
Nachteil: alles wird von yumpu.com in pixelgrafiken verwandelt. Text und
vektorinformationen gehen verloren.
freue mich, wenn ich damit jemandem helfen konnte.
Flip