Forum: PC Hard- und Software Wie kann man Teile aus einem pdf heraustrennen?


von Uhu U. (uhu)


Lesenswert?

Ich versuche aus pdfs einer Zeitschrift aus der Setzerei einzelne 
Artikel heraus zu trennen. So lange der Artikel n ganze Seiten lang ist, 
ist das kein Problem, aber an Artikeln, die nur Teile von Seiten 
belegen, habe ich mir die Zähne ausgebissen. Auch mit Abbyy FineReader 9 
ist nichts zu machen.

Kennt jemand einen Weg?

von Amateur (Gast)


Lesenswert?

Mit einem Pdf-Editor.

von Michael B. (mbiedenb)


Lesenswert?

Mit einem PDF Editor, oder ganz simpel per Screenshot durch Drücken der 
"Druck" Taste auf der Tastatur?

von Uhu U. (uhu)


Lesenswert?

Amateur schrieb:
> Mit einem Pdf-Editor.

Die Idee hatte ich auch schon, aber mit PDF Editor aus dem 
Ubuntu-Repositorium bin ich auf keinen grünen Zweig gekommen. Der zählt 
nur die einzelenen Datenfitzelchen in einer Seite auf und da kann man 
auch ein wenig dran rum pulen, aber das als "Editieren" zu bezeichnen, 
halte ich doch für etwas gewagt.

Michael B. schrieb:
> oder ganz simpel per Screenshot durch Drücken der "Druck" Taste auf der
> Tastatur?

Na ja, das ist so der aller letzte Notnagel, wenn einem wirklich gar 
nichts mehr einfällt...

von guest (Gast)


Lesenswert?

inkscape kann ganz passable pdfs bearbeiten. Kein plan wie es sich mit 
mehrseitigen dokumenten vertraegt

von 01:22 (Gast)


Lesenswert?

http://sourceforge.net/projects/briss
http://sourceforge.net/projects/scantailor


was zum lesen, (u.a. zum Thema)
www.freiesmagazin.de/ftp/2013/freiesMagazin-2013-12.pdf

von Dipl Ing ( FH ) (Gast)


Lesenswert?

> Ich versuche aus pdfs einer Zeitschrift aus der Setzerei einzelne
> Artikel heraus zu trennen.

Mit dem Adobe Acrobat dürfte es klappen ..

Der Preis dafür ist aber ziemlich happig ..

von fossi (Gast)


Lesenswert?

PDF-XChange Viewer

kann das, zumindest unter Windows

von John-eric K. (mockup)


Lesenswert?

Libreoffice kann auch pdfs einlesen

von Joachim D. (Firma: JDCC) (scheppertreiber)


Lesenswert?

Ich hatte so etwas mal mit xpdf probiert, damit kann man einzelne
Elemente aus einem PDF extrahieren. Wenn ich nur den Text selbst
haben möchte: Copy & Paste.

https://www.google.de/#q=xpdf%20download

Soweit ich weiß, kennt PDF keine Strukturen wie "Artikel".

von Walter T. (nicolas)


Lesenswert?

John-eric K. schrieb:
> Libreoffice kann auch pdfs einlesen

Ich kriege da nur die erste Seite. Aber immerhin. Nicht schlecht. Seiten 
auswählen kann man ja notfalls mit PDFlatex

: Bearbeitet durch User
von wendelsberg (Gast)


Lesenswert?


von Reinhard Kern (Gast)


Lesenswert?

Hallo,

PDF ist nun mal dafür nicht geschaffen worden, sondern als Druckformat 
und gerade in der Absicht, dass am Aussehen nichts mehr geändert werden 
kann.

Gutenberg hat den Buchdruck ja auch nicht dazu erfunden, dass jemand die 
Druckplatten mit der Metallsäge wieder zerlegt.

Un die meisten, die ein PDF ausgeben, wollen auch garnicht, dass jemand 
ihre Texte heraussaugt und anderweitig weiterverwendet.

Gruss Reinhard

von Udo S. (urschmitt)


Lesenswert?

Reinhard Kern schrieb:
> Un die meisten, die ein PDF ausgeben, wollen auch garnicht, dass jemand
> ihre Texte heraussaugt und anderweitig weiterverwendet.

Sozusagen ein Anti Plagiat Format :-)

Bei PDF kommt es sehr darauf an wie das PDF generiert wurde. Im PDF 
steht ein zusammengehöriger Text oft als Textfragmente mit deren 
absoluten Positionen auf der Seite. Im Extremfall stehen da nur einzelne 
Worte und für jedes Wort eine Position, eventuell noch in vielen 
verteilten Objekten.
Es gibt (oder gab in den älteren Versionen) praktisch keine 
Strukturierung wie Kapitel, Abschnitte.
Keine Ahnung wie gut die Tools inzwischen sind, aber je nach Art der 
Generierung ist das ein Alptraum.

von Walter T. (nicolas)


Lesenswert?

Reinhard Kern schrieb:
> Gutenberg hat den Buchdruck ja auch nicht dazu erfunden, dass jemand die
> Druckplatten mit der Metallsäge wieder zerlegt.

Und trotzdem haben vermutlich schon Zeitgenossen Schnipsel aus der damit 
gedruckten Zeitung ausgeschnitten, die für sie interessant waren.

von Uhu U. (uhu)


Lesenswert?

John-eric K. schrieb:
> Libreoffice kann auch pdfs einlesen

Das ist leider nur die halbe Wahrheit: LO kann pdfs einlesen, die eine 
eingebettete odf-Datei enthalten - also eigentlich kein pdf...

Joachim Drechsel schrieb:
> Soweit ich weiß, kennt PDF keine Strukturen wie "Artikel".

Genau das ist das Problem: pdf enthält Seiten und die wieder einen 
Haufen von kleinen Fitzeln, aus denen die Ausgabemaschine das Satzbild 
zusammenschraubt. Von der Logik des Textes, so wie er vorne 
hineingeschoben wurde, ist nicht mehr viel vorhanden. Man kann sich das 
so vorstellen, wie den Weg vom C-Quellcode zum Maschinencode.

Reinhard Kern schrieb:
> PDF ist nun mal dafür nicht geschaffen worden, sondern als Druckformat
> und gerade in der Absicht, dass am Aussehen nichts mehr geändert werden
> kann.

Genau. Dumm nur, wenn die Leute, die die Texte zum Satz bereitstellen, 
das nicht wissen und nur die fertigen pdfs des Druckwerkes 
archivieren...

Schon beim Text kopieren kommt zuweilen ziemlich abenteuerliches Zeug 
raus.

von Läubi .. (laeubi) Benutzerseite


Lesenswert?

Möglichkeit 1:
- Inkscape
- Gruppen auflösen
- nicht benötigtes löschen

Möglichkeit 2:
- Mit "Photowerkzeug" markieren
- Drucken auf PDF Drucker (Dann bleibt das auch Vektor/Schrift)

Möglichkeit 3:
- Tool um die CropBox zu bearbeiten

von Uhu U. (uhu)


Lesenswert?

So, mit dem XML-Editor von Inkscape habe ich es hinbekommen, einen 
Seitenanfang zu löschen und den Rest-Text an den Seitenanfang zu 
verschieben - ist nur eine ziemliche Fuddelei.

Danke für die Tipps.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.