Ich versuche aus pdfs einer Zeitschrift aus der Setzerei einzelne Artikel heraus zu trennen. So lange der Artikel n ganze Seiten lang ist, ist das kein Problem, aber an Artikeln, die nur Teile von Seiten belegen, habe ich mir die Zähne ausgebissen. Auch mit Abbyy FineReader 9 ist nichts zu machen. Kennt jemand einen Weg?
Mit einem PDF Editor, oder ganz simpel per Screenshot durch Drücken der "Druck" Taste auf der Tastatur?
Amateur schrieb: > Mit einem Pdf-Editor. Die Idee hatte ich auch schon, aber mit PDF Editor aus dem Ubuntu-Repositorium bin ich auf keinen grünen Zweig gekommen. Der zählt nur die einzelenen Datenfitzelchen in einer Seite auf und da kann man auch ein wenig dran rum pulen, aber das als "Editieren" zu bezeichnen, halte ich doch für etwas gewagt. Michael B. schrieb: > oder ganz simpel per Screenshot durch Drücken der "Druck" Taste auf der > Tastatur? Na ja, das ist so der aller letzte Notnagel, wenn einem wirklich gar nichts mehr einfällt...
inkscape kann ganz passable pdfs bearbeiten. Kein plan wie es sich mit mehrseitigen dokumenten vertraegt
http://sourceforge.net/projects/briss http://sourceforge.net/projects/scantailor was zum lesen, (u.a. zum Thema) www.freiesmagazin.de/ftp/2013/freiesMagazin-2013-12.pdf
> Ich versuche aus pdfs einer Zeitschrift aus der Setzerei einzelne > Artikel heraus zu trennen. Mit dem Adobe Acrobat dürfte es klappen .. Der Preis dafür ist aber ziemlich happig ..
PDF-XChange Viewer kann das, zumindest unter Windows
Ich hatte so etwas mal mit xpdf probiert, damit kann man einzelne Elemente aus einem PDF extrahieren. Wenn ich nur den Text selbst haben möchte: Copy & Paste. https://www.google.de/#q=xpdf%20download Soweit ich weiß, kennt PDF keine Strukturen wie "Artikel".
John-eric K. schrieb: > Libreoffice kann auch pdfs einlesen Ich kriege da nur die erste Seite. Aber immerhin. Nicht schlecht. Seiten auswählen kann man ja notfalls mit PDFlatex
:
Bearbeitet durch User
Hallo, PDF ist nun mal dafür nicht geschaffen worden, sondern als Druckformat und gerade in der Absicht, dass am Aussehen nichts mehr geändert werden kann. Gutenberg hat den Buchdruck ja auch nicht dazu erfunden, dass jemand die Druckplatten mit der Metallsäge wieder zerlegt. Un die meisten, die ein PDF ausgeben, wollen auch garnicht, dass jemand ihre Texte heraussaugt und anderweitig weiterverwendet. Gruss Reinhard
Reinhard Kern schrieb: > Un die meisten, die ein PDF ausgeben, wollen auch garnicht, dass jemand > ihre Texte heraussaugt und anderweitig weiterverwendet. Sozusagen ein Anti Plagiat Format :-) Bei PDF kommt es sehr darauf an wie das PDF generiert wurde. Im PDF steht ein zusammengehöriger Text oft als Textfragmente mit deren absoluten Positionen auf der Seite. Im Extremfall stehen da nur einzelne Worte und für jedes Wort eine Position, eventuell noch in vielen verteilten Objekten. Es gibt (oder gab in den älteren Versionen) praktisch keine Strukturierung wie Kapitel, Abschnitte. Keine Ahnung wie gut die Tools inzwischen sind, aber je nach Art der Generierung ist das ein Alptraum.
Reinhard Kern schrieb: > Gutenberg hat den Buchdruck ja auch nicht dazu erfunden, dass jemand die > Druckplatten mit der Metallsäge wieder zerlegt. Und trotzdem haben vermutlich schon Zeitgenossen Schnipsel aus der damit gedruckten Zeitung ausgeschnitten, die für sie interessant waren.
John-eric K. schrieb: > Libreoffice kann auch pdfs einlesen Das ist leider nur die halbe Wahrheit: LO kann pdfs einlesen, die eine eingebettete odf-Datei enthalten - also eigentlich kein pdf... Joachim Drechsel schrieb: > Soweit ich weiß, kennt PDF keine Strukturen wie "Artikel". Genau das ist das Problem: pdf enthält Seiten und die wieder einen Haufen von kleinen Fitzeln, aus denen die Ausgabemaschine das Satzbild zusammenschraubt. Von der Logik des Textes, so wie er vorne hineingeschoben wurde, ist nicht mehr viel vorhanden. Man kann sich das so vorstellen, wie den Weg vom C-Quellcode zum Maschinencode. Reinhard Kern schrieb: > PDF ist nun mal dafür nicht geschaffen worden, sondern als Druckformat > und gerade in der Absicht, dass am Aussehen nichts mehr geändert werden > kann. Genau. Dumm nur, wenn die Leute, die die Texte zum Satz bereitstellen, das nicht wissen und nur die fertigen pdfs des Druckwerkes archivieren... Schon beim Text kopieren kommt zuweilen ziemlich abenteuerliches Zeug raus.
Möglichkeit 1: - Inkscape - Gruppen auflösen - nicht benötigtes löschen Möglichkeit 2: - Mit "Photowerkzeug" markieren - Drucken auf PDF Drucker (Dann bleibt das auch Vektor/Schrift) Möglichkeit 3: - Tool um die CropBox zu bearbeiten
So, mit dem XML-Editor von Inkscape habe ich es hinbekommen, einen Seitenanfang zu löschen und den Rest-Text an den Seitenanfang zu verschieben - ist nur eine ziemliche Fuddelei. Danke für die Tipps.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.