Ich betreue eine nicht ganz kleine Website und erhielt heute eine etwas kuriose Anfrage: Jemand möchte die Erlaubnis, die ganze Site durch eine Firma ausdrucken zu lassen. Nun ja, die Internet-Ausdrucker... Was ich mich frage: wie druckt man eine ganze Website aus, ohne sich dumm und dämlich zu klicken? Ich würde das Werk selbst gerne mal über den pdf-Drucker rauslassen, nur um zu sehen, wieviele DIN-A5-Seiten das gibt. Hat jemand einen Tipp?
wget ist klar, aber damit holt man sich nur die Site auf den heimischen Rechner - das ist keine Kunst. Bleibt die eigentliche Aufgabe, das Drucken... Ach ja, da sind auch so einige ziemlich fette pdfs dabei - die sollten auch noch mit in die Ziel-pdf-Datei.
Naja wen nen CMS ist gibt es für die meisten nen PDF Export meine hat das sogar im Admin bereich ohne extra Plugin damit kann man alle Artikel in nen PDF machen, obs nen zweck hat ka. Ansonsten über nen RSS Feed falls vorhanden geht das auch wen dieser die kompletten Artikel + Bilder enthält.
K. J. schrieb: > Ansonsten über nen RSS Feed falls vorhanden geht das auch wen dieser die > kompletten Artikel + Bilder enthält. Wie soll das gehen? RSS schickt doch nur die neuen, oder geänderten Seiten, nicht den ganzen Brocken aus mehreren 100 Einzelseiten. Ein pdf-Plugin ist vorhanden, aber das pdft nur die Seite, auf der es geklickt wurde.
Professionelle Internet-ausdrucker haben da sicher ihre Werkzeuge, da würde ich mir keine Sorgen machen ;-) (sehr viel) früher, als Internet noch nach Minuten abgerechet wurde, gabs mal grabber/ripper/tracker (kein Ahnung wie die genaus heißen) damit konnte man die Webseite offline anschauen (solche tools haben u.U. auch eine druckfunktion..?) mit aktuellen Webseiten j(ava)Scricpt usw. kommen die aber vermutlich nicht mehr so wirklich gut zurecht.. ich denke aber auch, dass man jedes vernünftige CMS Batch-PDF-Exporten kann..
Uhu U. schrieb: > Was ich mich frage: wie druckt man eine ganze Website aus, ohne sich > dumm und dämlich zu klicken? Das Problem kannst du doch demjenigen überlassen, der die Site ausdrucken will. Wenn ich dich richtig verstanden habe, sollst du ja lediglich die Erlaubnis dazu geben und nicht die Seite selbst ausdrucken, oder? :-)
Acrobat hatte früher eine Funktion um ganze Webseiten in pdf zu wandeln. Hat nicht besonders gut funktioniert aber vllt. haben sie das ja weiterentwickelt.
Guido B. schrieb: > Acrobat hatte früher eine Funktion um ganze Webseiten in pdf > zu wandeln. Hat nicht besonders gut funktioniert aber vllt. haben > sie das ja weiterentwickelt. Soweit ich weiß, war das nur für eine Seite gedacht. Und das auch ohne die eingebetteten oder verlinkten PDFs. Hier geht es aber darum, eine umfangreiche Site mit vielen Seiten einschließlich der darauf befindlichen PDFs auszudrucken. Das stell ich mir auch nicht ganz trivial vor...
Uhu U. schrieb: > wget ist klar, aber damit holt man sich nur die Site auf den heimischen > Rechner - das ist keine Kunst. > > Bleibt die eigentliche Aufgabe, das Drucken... > > Ach ja, da sind auch so einige ziemlich fette pdfs dabei - die sollten > auch noch mit in die Ziel-pdf-Datei. Ein Skript, das der Reihe nach alle *.html *.pdf *.wasweißich Dateien in einem Verzeichnis und dessen Unterverzeichnissen abklappert und diese ausdruckt, sollte nicht so schwierig zu schreiben sein. Zum Beispiel: http://stackoverflow.com/questions/20741854/i-want-to-create-a-batch-script-that-will-print-all-the-files-i-have-in-a-folder
Bernd S. schrieb: > Guido B. schrieb: >> Acrobat hatte früher eine Funktion um ganze Webseiten in pdf >> zu wandeln. Hat nicht besonders gut funktioniert aber vllt. haben >> sie das ja weiterentwickelt. > > Soweit ich weiß, war das nur für eine Seite gedacht. Und das auch ohne > die eingebetteten oder verlinkten PDFs. Hier geht es aber darum, eine > umfangreiche Site mit vielen Seiten einschließlich der darauf > befindlichen PDFs auszudrucken. Das stell ich mir auch nicht ganz > trivial vor... Nein, man konnte einstellen wie tief in die Verlinkung eingedrungen werden sollte. Prinzipiell hat das schon funktioniert.
Mark B. schrieb: > Ein Skript, das der Reihe nach alle *.html *.pdf *.wasweißich Dateien in > einem Verzeichnis und dessen Unterverzeichnissen abklappert und diese > ausdruckt, sollte nicht so schwierig zu schreiben sein. Diese Konstellation findet man immer weniger. Häufig ist es so, daß die Seite, die dem Betrachter übermittelt wird, erst beim Aufruf aus vielen Fragmenten bzw. Scripts in Verbindung mit Daten aus einer Datenbank zusammengebastelt werden. Das heißt, die eigentliche Seite, die im Endeffekt angezeigt wird, existiert eigentlich gar nicht in diversen Verzeichnissen, sie wird erst beim Aufruf erstellt.
Guido B. schrieb: > Nein, man konnte einstellen wie tief in die Verlinkung eingedrungen > werden sollte. Prinzipiell hat das schon funktioniert. Einschließlich der PDFs, die auf der Seite verlinkt wurden? Na gut, wenn das so ist, dann habe ich wieder was gelernt.
Uhu U. schrieb: > Ich betreue eine nicht ganz kleine Website und erhielt heute eine etwas > kuriose Anfrage: Jemand möchte die Erlaubnis, die ganze Site durch eine > Firma ausdrucken zu lassen. vielleicht wollen die dir dadurch versteckt die Erlaubnis entlocken, daraus ein Buch machen zu dürfen, um dann damit zu verdienen. Ich würde erst mal nachfragen, mit dem Verweis, dass ich es aus Umweltschutzgründen nicht so toll fände, wenn 20000 Seiten ausgedruckt werden. Edit: sei vorallem vorsichtig, was du ihnen für Rechte einräumst. Wenn deine Seite auf Texten fremder basiert (eine Art Vogelwiki, oder so), benötigst du für so eine Entscheidung eventuell auch die Zustimmung aller Autoren.
Bernd S. schrieb: > Diese Konstellation findet man immer weniger. Häufig ist es so, daß die > Seite, die dem Betrachter übermittelt wird, erst beim Aufruf aus vielen > Fragmenten bzw. Scripts in Verbindung mit Daten aus einer Datenbank > zusammengebastelt werden. Das heißt, die eigentliche Seite, die im > Endeffekt angezeigt wird, existiert eigentlich gar nicht in diversen > Verzeichnissen, sie wird erst beim Aufruf erstellt. Aber mit wget bekommt man die Dateien ja auch so, wie der Server sie dynamisch zur Laufzeit generiert, oder? Also: 1.) Ein Skript, das mittels wget alle HTML-Seiten aufruft und speichert 2.) Ein Skript, das alle PDF- und sonstigen Dateien einsammelt 3.) Ein Skript, das die Dateien aus 1.) und 2.) ausdruckt. Die Sinnhaftigkeit der ganzen Aktion kann man völlig zu Recht anzweifeln, aber es sollte gehen.
Mark B. schrieb: > Aber mit wget bekommt man die Dateien ja auch so, wie der Server sie > dynamisch zur Laufzeit generiert hat, oder? Hast Recht, sorry.
Robert L. schrieb: > (sehr viel) früher, als Internet noch nach Minuten abgerechet wurde, > gabs mal grabber/ripper/tracker (kein Ahnung wie die genaus heißen) > damit konnte man die Webseite offline anschauen (solche tools haben u.U. > auch eine druckfunktion..?) Gibts heute noch: wget
Bernd S. schrieb: > Das Problem kannst du doch demjenigen überlassen, der die Site > ausdrucken will. Im Prinzip ja, aber ich will den betreffenden vorwarnen, indem ich ihm mitteile, wieviele DIN-A4-Seiten das werden. Dann kann er sich ausrechnen, was ihn der Scheiß kosten wird...
Vlad T. schrieb: > vielleicht wollen die dir dadurch versteckt die Erlaubnis entlocken, > daraus ein Buch machen zu dürfen, um dann damit zu verdienen. Glaub ich in dem Fall eigentlich nicht. Das sieht eher wie ein ganz normaler Internet-Ausdrucker aus. Nur was man auf Papier hat, hat man wirklich... > sei vorallem vorsichtig, was du ihnen für Rechte einräumst. Das ist ganz einfach: für private Zwecke darf er.
Mark B. schrieb: > Also: > 1.) Ein Skript, das mittels wget alle HTML-Seiten aufruft und speichert > 2.) Ein Skript, das alle PDF- und sonstigen Dateien einsammelt > 3.) Ein Skript, das die Dateien aus 1.) und 2.) ausdruckt. Da fehlt ein Schritt: 1.) Ein Skript, das mittels wget alle HTML-Seiten aufruft und speichert 2.) Ein Skript, das alle PDF- und sonstigen Dateien einsammelt 3.) Ein Skript, das die HTML-Seiten einschließlich css, etc. in PDF umwandelt 4.) Ein Skript, das die Dateien aus 1.) und 2.) ausdruckt.
Eine nette Möglichkeit, Links aus einer HTML-Seite zu extrahieren, bietet lynx:
1 | lynx -dump -listonly datei.html |
Der ganze Job, eine komplette Website auszudrucken - ohne Dopplungen - ist nicht ganz trivial und ob der Unsinnigkeit des Projektes eigentlich eine Strafarbeit...
web-crawler hießen die dinge, jetzt weiß ich es wieder (zum wget sag ich mal nix, das führt nur zu eine CMD<>GUI diskussion)
Als Internetausdrucker beherrsche ich die gängigen Methoden soweit, dass ich komfortabel Homepages ausdrucken kann. Nur bei Youtube-Inhalten komme ich nicht so recht weiter. Grüße Richard
Richard H. schrieb: > Als Internetausdrucker beherrsche ich die gängigen Methoden soweit, dass > ich komfortabel Homepages ausdrucken kann. Ich drucke mir hin und wieder mal das Forum aus, damit ich auch mitdiskutieren kann, wenn ich mal offline bin.
J.-u. G. schrieb: > Richard H. schrieb: >> Als Internetausdrucker beherrsche ich die gängigen Methoden soweit, dass >> ich komfortabel Homepages ausdrucken kann. > > Ich drucke mir hin und wieder mal das Forum aus, damit ich auch > mitdiskutieren kann, wenn ich mal offline bin. Mach ich auch. Und meine handschriftlichen Zettel schicke ich per Post an Andreas, damit er sie online stellt. :-)
J.-u. G. schrieb: > Richard H. schrieb: >> Als Internetausdrucker beherrsche ich die gängigen Methoden soweit, dass >> ich komfortabel Homepages ausdrucken kann. > > Ich drucke mir hin und wieder mal das Forum aus, damit ich auch > mitdiskutieren kann, wenn ich mal offline bin. Viel mit Textmarker hervorheben und kritische Anmerkungen zu Kommentaren dazu kritzeln und Beiträge von Usern die ich ignorieren möchte werden mit Tipp-Ex entfernt. Dann 10 MByte Scans davon als BMP als Antwort anhängen. ;-P ;-)
J.-u. G. schrieb: > Ich drucke mir hin und wieder mal das Forum aus, damit ich auch > mitdiskutieren kann, wenn ich mal offline bin. Gute Idee! Gerade bei kontroversen Diskussionen kann man sich so viel Widerspruch und negative Bewertungen ersparen.
Zum Webseiten grabben benutze ich unter Windows das Firefox-plugin "Fireshot", das erzeugt allerdings reine Pixelgrafik. http://getfireshot.com/ läuft leider nicht unter Linux, aber da hab ich etwas ähnliches gefunden.
html2ps kann eine HTML-Seite - auch rekursiv - in Postscript ausgeben - das kommt der Sache schon ziemlich nahe. Zumindest in Debian-Derivaten ist es im Standard-Repositorium vorhanden. Nachtrag: Leider funktioniert das Teil nicht...
Uhu U. schrieb: > Nachtrag: Leider funktioniert das Teil nicht... DIese ganze html2irgendwas Tools funktionieren meist nur für seeeehr rudimentäre Sachen. Wenn man das wirklich ordentlich haben will ist da meist ein Browser-Control dahinter was dann das ganze "wie in echt" rendert, das ist aber dann auch nicht gerade ein Geschwindigkeitswunder.
Läubi .. schrieb: > das ist aber dann auch nicht gerade ein Geschwindigkeitswunder. Das ist egal, ich will den Unsinn ja nicht jeden Tag machen... Kennst du was in diese Richtung?
Mark B. schrieb: > Aber mit wget bekommt man die Dateien ja auch so, wie der Server sie > dynamisch zur Laufzeit generiert, oder? Ja und nein. Ja, du bekommst die Seiten wie jeder Browser auch. Nein du bekommst nicht das endgültige Ergebnis, da heutige viele Inhalte per JS nachgeladen werden. Frag doch einfach mal bei einer höheren Behörde nach. Die haben normal immer einen aktuellen Ausdruck vom Internet. :)
Folgenden Ansatz würde ich wählen: - Alle Unterseiten einer Webseite auflisten (beispielsweise per "Sitemap", ein Menüpunkt den viele Webseiten haben). Alternativ gibt es auch tools, ich glaube, wget könnte das. - Dann in ein PDF umwandeln. Hierfür kann ich wkhtmltopdf empfehlen, das ist echt sehr gut! Mithilfe der Webkit Browser Engine wird die Seite dargestellt und dann in ein PDF gewandelt. - Dann einfach die PDFs drucken (lassen) Alternativ: Das Praktikum des weitgehend unfähigen Studenten dauert noch 1 Woche und niemand will mehr was mit ihm zu tun haben => Internet ausdrucken lassen, da kann er schlimmstenfalls noch den Drucker leeren ;-)
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.