Forum: Offtopic Zeitschriften scannen, OCR, PDF


von Frank M. (duesentrieb72)


Lesenswert?

Hallo zusammen,

ich habe einige Stapel an Zeitschriften, die mittlerweile beträchtlichen 
Platz einnehmen.
Bei der "Elektor" kann Mann jetzt ganze Jahrzehnte als DVD kaufen und 
die Papier-Form in Altpapier geben. Gelöst!
Habe aber doch noch einige andere, bei denen das nicht möglich ist.

Hierzu habe ich folgende Möglichkeiten angedacht:
* (vorhandenen) Flachbrettscanner nutzen; Seite für Seite scannen und 
dann?
* Dokumenten-Duplex-Scanner kaufen(welchen? Kosten?); Zeitschriften 
zerschneiden; den automatischen Einzug damit füttern; einscannen und 
dann? Bei den meisten Scannern wird mit einer beigelegten OCR-Software 
geworben. Wie tauglich sind die?
* (vorhandene) Digitalkamera nutzen; Seite für Seite abfotografieren und 
dann?

Das Ganze sollte auch in einem vertretbaren Zeitaufwand zu bewältigen 
sein und somit der Flachbrettsacnner schon fast "raus" ist...
Ich möchte gerne als "Endergebnis" die Zeitschrift als PDF mit Text und 
Grafik (vielfach ja Schaltbilder) haben.
Der Text sollte auch schon "durchsuchbar" sein, also nicht einfach eine 
ganzseitige Grafik in ein PDF gedruckt.
Welche freie, brauchbare OCR Software könnt Ihr empfehlen?

Hat jemand damit schon Erfahrungen gemacht?

Danke im Vorraus und Gruß,
Düsentrieb72

von Johnny B. (johnnyb)


Lesenswert?

Da es wohl mehr um den Inhalt als um die Qualität geht, könntest Du die 
Zeitschriften auch einfach mit einer Kamera abfotografieren.
Mit guten Tools kannst Du dann daraus ein PDF machen und eine OCR rüber 
laufen lassen. Mit Adobe Acrobat (Vollversion, nicht der Reader) sollte 
das eigentlich recht flott gehen.

Allerdings frage ich mich, ob sich der ganze Aufwand überhaupt lohnt, 
ausser Du machst es gerne und hast Freude daran, dann ist es etwas 
anderes.

von Rufus Τ. F. (rufus) Benutzerseite


Lesenswert?

Frank M. schrieb:
> Habe aber doch noch einige andere

Du könntest ja mal vorsichtig nachfragen, ob für diese nicht jemand 
anderes das gleiche Problem hatte und bereits gelöst hat ...

von Steffen W. (derwarze)


Lesenswert?

Zu meinem Flachbettscanner (bessers Teil, damals als SCSI noch Mode war) 
gab es ein brauchbares OCR Programm dazu.
Habe (allerdings mit Finereader pro als OCR-Prog) dicke Bücher 
eingelesen. ging eigentlich recht flott, zumindest wenn nicht gerade mit 
2400dpi gescannt wird. Erst Fotografieren und dann die Bilder wandeln 
macht eigentlich nur Sinn bei gutem Aufbau (Stativ, Beleuchtung etc) und 
ordentlicher Kamera (die biligen Digitalknipser bringens nicht).
Das korrigieren der Einlesefehler macht erfahrungsgemäß die meisste 
Arbeit.

von Christoph db1uq K. (christoph_kessler)


Lesenswert?

Die Kamera sollte dann aber schon (echte) ca. 16 MPixel haben. Das sind 
auf eine DINA4-Seite umgerechnet etwa 400 dpi, das reicht für eine OCR. 
Mit 4 MPixel wären es nur 200dpi.
Ich habe mir gerade beim Blödelmarkt nur dafür eine neue Kamera 
geleistet (Coolpix3300 89€), die laut "Test" eine "gute" Auflösung bei 
16 MPixel haben soll. Die anderen in der Tabelle waren in dem Punkt nur 
"befriedigend" oder mindestens doppelt so teuer. Eine Alu-U-Schiene soll 
die Kamera nach unten schauend tragen. In c´t 8/2012 war ein Artikel und 
weitere ältere Artikel zum Thema erwähnt. Reprostative liegen in der 
Gegend von 500€, das war mir doch zu teuer. Für empfindliche Bücher ist 
eher an eine Buchwippe zu denken, wo das Buch nur 90 Grad geöffnet wird. 
Es gibt sogar eine Prismenkonstruktion, die nur etwa 45 Grad Buchöffnung 
braucht, aber das ist wieder sehr speziell.

von Läubi .. (laeubi) Benutzerseite


Lesenswert?

An einigen Unis gibt es so Buchscanner welche man kostenfrei benutzen 
kann. Damit würde ich mal anfangen. Umwandeln in Text kann man dann 
später versuchen wenn einem wirklich langweilig ist, ob sich das so 
lohnt für eine Zeitschrift?

von Frank M. (duesentrieb72)


Lesenswert?

Schon mal herzlichen Dank für die Antworten,

Johnny B. schrieb:
> Allerdings frage ich mich, ob sich der ganze Aufwand überhaupt lohnt,
> ausser Du machst es gerne und hast Freude daran, dann ist es etwas
> anderes.
Läubi .. schrieb:
> ob sich das so
> lohnt für eine Zeitschrift?
Rational habt Ihr natürlich vollkommen recht.
Über Sinn und Unsinn lässt sich sicher streiten...
Aber erstens habe ich dafür mal 'ne Menge Geld ausgegeben, zweitens 
finde ich ab und an darin doch noch Idee und Anregungen, wie Dieses oder 
Jenes umsetzen kann (was ich im Netz ncht gefunden habe) und drittens 
ist schon ein bisschen Nostalgie dabei...

Rufus Τ. Firefly schrieb:
> Du könntest ja mal vorsichtig nachfragen, ob für diese nicht jemand
> anderes das gleiche Problem hatte und bereits gelöst hat ...
Daran habe ich leider nicht gedacht!
OK, hat jemand die folgenden Zeitschriften vielleicht in PDF-Form:
* EAM-Magazin mit Sonderheften (von Anfang bis Ende)?
* Elektor (ab '89 bis 2007 ab da habe ich die auf CD)?
* ELV mit Layoutblättern (ab ca. '89 bis heute)?
* Bike (ab ca. '95 bis heute)?

Läubi .. schrieb:
> An einigen Unis gibt es so Buchscanner welche man kostenfrei benutzen
> kann.
Danke für den Tip. Für die ersten Versuche sicher eine gute Idee.
Für die spätere Praxis auf Grund der Menge wahrscheinlich nicht so gut, 
mit Kisten dort anzurücken... ;)

Christoph Kessler (db1uq) schrieb:
> Die Kamera sollte dann aber schon (echte) ca. 16 MPixel haben
:( Meine vorhandenen habe nur 8 bzw. 10...
Die Idee war, wie einige im Netz das gemacht haben, ein einfaches 
Gestell aus Holz mit einem "Schlitten" zu bauen, das als Stativ fungiert 
und die Kamera immer in der gleichen Position hält.

Werde am WE mal einfach ein paar "Knipsversuche" machen und dann die 
Ergebnisse mal versuchen umzuwandeln...

Kennt jemand ein freies OCR-Programm, was Er empfehlen kann, um erst 
einmal Versuche zu machen?

Vielen Dank und Gruß,
Duesentrieb72

von Läubi .. (laeubi) Benutzerseite


Lesenswert?

Frank M. schrieb:
> finde ich ab und an darin doch noch Idee und Anregungen, wie
> Dieses oder  Jenes umsetzen kann
> (was ich im Netz ncht gefunden habe)
Da würde dann aber eine "bildhafte" Ablegung ggf. mit Keywords versehen 
sicher der wesentlich zeitsparenderere Weg.

Das Problem bei OCR ist, dass du vermutlich nicht ohne Nacharbeit 
auskommen wirst, ggf. die Formatierung anpassen musst und gute Programme 
echt ins Geld gehen können, ganz abgesehen vom initialaufwand.

Frank M. schrieb:
> Kennt jemand ein freies OCR-Programm
Ich benutze von Zeit zu Zeit tesseract, das erzeugt aber z.B. nur Text 
und die erkannten Texte sollte man nochmal Korrekturlesen ;-)

von Jörg W. (dl8dtl) (Moderator) Benutzerseite


Lesenswert?

Läubi .. schrieb:
> Das Problem bei OCR ist, dass du vermutlich nicht ohne Nacharbeit
> auskommen wirst, ggf. die Formatierung anpassen musst und gute Programme
> echt ins Geld gehen können, ganz abgesehen vom initialaufwand.

Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem
gescannten Bild einen OCR-ten Text dahinter liegen hat.  Ich habe
derartige Manuals schon gesehen (ich glaub' von HP).  Damit kann man
einerseits im PDF suchen, hat andererseits zur Ansicht stets den
originalen Text, wie er gedruckt war.  Damit muss man das OCR-Ergebnis
nicht weiter nacharbeiten (sofern die Trefferrate insgesamt befriedi-
gend genug ist, dass man im Normalfall mit der Suche auch wirklich
was findet).

Wird vermutlich nur von den Adobe-Tools selbst unterstützt, nehme ich
mal an.

von Läubi .. (laeubi) Benutzerseite


Lesenswert?

Jörg Wunsch schrieb:
> Prinzipiell muss es möglich sein, dass
Ja es gibt da sehr ausgefeilte Techniken, nur da ist man halt schnell 
bei kostenpflichtigen Tools, Readiris soll ganz gut sein, da gibt es 
eine Demo 
(http://www.irislink.com/c1-2252-48/I-R-I-S--Products---Trial-Version.aspx) 
die könnte man ja mal austesten, die Vollversion liegt bei 129$ aber 
kostenlos hab ich da noch nix vergleichbares gefunden.

von Jörg W. (dl8dtl) (Moderator) Benutzerseite


Lesenswert?

Läubi .. schrieb:
> die Vollversion liegt bei 129$

Was angesichts des zu verarbeitenden Zeitschriftenstapels wohl als
Investition nicht aus der Rolle fallen würde.

p.s.: Warum gibt's denn die Demo nur für Win* und nicht MacOS?
Seltsam ... müssen Mac-User alles sofort kaufen?

von J.-u. G. (juwe)


Lesenswert?

Jörg Wunsch schrieb:
> Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem
> gescannten Bild einen OCR-ten Text dahinter liegen hat.

Ja, gibt es. Die PDFs von älteren Papers werden oft auf diese Art 
erstellt.

> Wird vermutlich nur von den Adobe-Tools selbst unterstützt, nehme ich
> mal an.

Letztendlich wird das ja über Layer im  PDF realisiert. Es gibt auch 
Nicht-Adobe-Tools sie mit PDF-Layern zurechtkommen. Beispiel:

http://wiki.ubuntuusers.de/pdfsandwich

von Harald W. (wilhelms)


Lesenswert?

J.-u. G. schrieb:
> Jörg Wunsch schrieb:
>> Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem
>> gescannten Bild einen OCR-ten Text dahinter liegen hat.
>
> Ja, gibt es. Die PDFs von älteren Papers werden oft auf diese Art
> erstellt.

Die "elrad" DVD ist m.W. so erstellt.
Gruss
Harald

von -.- -. (uka-0x7c9)


Lesenswert?


von Alexander S. (esko) Benutzerseite


Lesenswert?

Frank M. schrieb:
> * EAM-Magazin mit Sonderheften (von Anfang bis Ende)?
Da würde ich mal bei Reinhard Gößler anfragen.

> * Elektor (ab '89 bis 2007 ab da habe ich die auf CD)?
Alle Artikel ab September 2005 gibt es als PDF. Für Die Jahrgänge ab 
1996 existiert für jeden Artikel ein Bild und ein Anrisstext auf der 
Homepage, manchmal auch eine Stückliste.

> * ELV mit Layoutblättern (ab ca. '89 bis heute)?
Gibt es alle digitalisiert als PDF vom Verlag, mitunter auch aus dunklen 
Quellen.

> * Bike (ab ca. '95 bis heute)?
Abonnenten können sich alle PDF-Artikel kostenlos herunterladen.

von Johnny B. (johnnyb)


Lesenswert?

Jörg Wunsch schrieb:
> Läubi .. schrieb:
>> Das Problem bei OCR ist, dass du vermutlich nicht ohne Nacharbeit
>> auskommen wirst, ggf. die Formatierung anpassen musst und gute Programme
>> echt ins Geld gehen können, ganz abgesehen vom initialaufwand.
>
> Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem
> gescannten Bild einen OCR-ten Text dahinter liegen hat.  Ich habe
> derartige Manuals schon gesehen (ich glaub' von HP).  Damit kann man
> einerseits im PDF suchen, hat andererseits zur Ansicht stets den
> originalen Text, wie er gedruckt war.  Damit muss man das OCR-Ergebnis
> nicht weiter nacharbeiten (sofern die Trefferrate insgesamt befriedi-
> gend genug ist, dass man im Normalfall mit der Suche auch wirklich
> was findet).
>
> Wird vermutlich nur von den Adobe-Tools selbst unterstützt, nehme ich
> mal an.

Also mit Acrobat geht das sehr einfach, habe ich vor Jahren mal 
ausprobiert.
z.B. bei Pearl gibts manchmal alte Versionen für rel. wenig Geld. 
Momentan wird Acrobat 9 für ca. EUR 100.- angeboten.
http://www.pearl.de/a-PK4509-3122.shtml?query=acrobat

Gratistools mit demselben Komfort und guter OCR wird es wahrscheinlich 
nicht geben.

von Christoph db1uq K. (christoph_kessler)


Lesenswert?

Danke an (dahdidah dahdidah - oder was soll das heißen) für den Tip mit 
Tesseract/Gimagereader, das sieht ganz gut aus. Sogar Fraktur kann das 
lesen, das gibts bei Finereader erst für sehr viel Geld zusätzlich. Muss 
das unbedingt mal ausprobieren mit alten Texten.

Das mit der Text/Bildüberlagerung hätte ich mit LibreOffice versucht, da 
kann man auch Bilder und Text hintereinanderlegen. "In PDF Drucken" ist 
dann eine eingebaute Funktion.

PS: um ein Buch in LibreOffice als ein Bild pro Seite einzugeben, habe 
ich mal erst mit dem Hexeditor HxD eine Hexdatei nur aus vielen $12 = 
new page erzeugt und dann in (damals) OpenOffice eingelesen. Das ergibt 
eine entsprechende Anzahl leerer Seiten, in die man dann die gescannten 
Bilder eingeben kann. Seitenränder auf Null, dann sind die nicht so 
breit.

von nix und n. (nixundnul)


Lesenswert?

Prinzipiell mache ich das ähnlich, schon lange. Allerdings: Die Beiträge 
einzeln gescannt, und in Sachgruppen geordnet. Dann finde ich sie auch 
wieder. Vollständige Zeitschriften en bloc sind eher uninteressant.
Dazu verwende ich einen flotten Scanner (ebucht), unter Linux (Knoppix 
oder Ubuntu) das Programm xsane im Mehrseiten-Modus als pdf. Auflösung 
150dpi. Komprimierung ist nun noch nicht gut, dann wird es aus dem 
pdf-reader nochmal in ein pdf gedruckt. Dann bin ich bei etwa 
150-300kB/Seite. Archivierung auf USB-Stick. OCR habe ich noch nicht 
getestet, dürfte mit spaltenweisem Text und Bildern zuviel 
Nachbearbeitung erfordern. Habe schon viel anderes versucht, aber das 
ist so die beste Lösung. Geht auch bei 250-Seiten-Büchern ohne 
Nervenzusammenbruch.
Ein "Tausch" von Dateien dürfte rechtlich problematisch sein, ich würde 
es nicht online machen.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.