Hallo zusammen, ich habe einige Stapel an Zeitschriften, die mittlerweile beträchtlichen Platz einnehmen. Bei der "Elektor" kann Mann jetzt ganze Jahrzehnte als DVD kaufen und die Papier-Form in Altpapier geben. Gelöst! Habe aber doch noch einige andere, bei denen das nicht möglich ist. Hierzu habe ich folgende Möglichkeiten angedacht: * (vorhandenen) Flachbrettscanner nutzen; Seite für Seite scannen und dann? * Dokumenten-Duplex-Scanner kaufen(welchen? Kosten?); Zeitschriften zerschneiden; den automatischen Einzug damit füttern; einscannen und dann? Bei den meisten Scannern wird mit einer beigelegten OCR-Software geworben. Wie tauglich sind die? * (vorhandene) Digitalkamera nutzen; Seite für Seite abfotografieren und dann? Das Ganze sollte auch in einem vertretbaren Zeitaufwand zu bewältigen sein und somit der Flachbrettsacnner schon fast "raus" ist... Ich möchte gerne als "Endergebnis" die Zeitschrift als PDF mit Text und Grafik (vielfach ja Schaltbilder) haben. Der Text sollte auch schon "durchsuchbar" sein, also nicht einfach eine ganzseitige Grafik in ein PDF gedruckt. Welche freie, brauchbare OCR Software könnt Ihr empfehlen? Hat jemand damit schon Erfahrungen gemacht? Danke im Vorraus und Gruß, Düsentrieb72
Da es wohl mehr um den Inhalt als um die Qualität geht, könntest Du die Zeitschriften auch einfach mit einer Kamera abfotografieren. Mit guten Tools kannst Du dann daraus ein PDF machen und eine OCR rüber laufen lassen. Mit Adobe Acrobat (Vollversion, nicht der Reader) sollte das eigentlich recht flott gehen. Allerdings frage ich mich, ob sich der ganze Aufwand überhaupt lohnt, ausser Du machst es gerne und hast Freude daran, dann ist es etwas anderes.
Frank M. schrieb: > Habe aber doch noch einige andere Du könntest ja mal vorsichtig nachfragen, ob für diese nicht jemand anderes das gleiche Problem hatte und bereits gelöst hat ...
Zu meinem Flachbettscanner (bessers Teil, damals als SCSI noch Mode war) gab es ein brauchbares OCR Programm dazu. Habe (allerdings mit Finereader pro als OCR-Prog) dicke Bücher eingelesen. ging eigentlich recht flott, zumindest wenn nicht gerade mit 2400dpi gescannt wird. Erst Fotografieren und dann die Bilder wandeln macht eigentlich nur Sinn bei gutem Aufbau (Stativ, Beleuchtung etc) und ordentlicher Kamera (die biligen Digitalknipser bringens nicht). Das korrigieren der Einlesefehler macht erfahrungsgemäß die meisste Arbeit.
Die Kamera sollte dann aber schon (echte) ca. 16 MPixel haben. Das sind auf eine DINA4-Seite umgerechnet etwa 400 dpi, das reicht für eine OCR. Mit 4 MPixel wären es nur 200dpi. Ich habe mir gerade beim Blödelmarkt nur dafür eine neue Kamera geleistet (Coolpix3300 89€), die laut "Test" eine "gute" Auflösung bei 16 MPixel haben soll. Die anderen in der Tabelle waren in dem Punkt nur "befriedigend" oder mindestens doppelt so teuer. Eine Alu-U-Schiene soll die Kamera nach unten schauend tragen. In c´t 8/2012 war ein Artikel und weitere ältere Artikel zum Thema erwähnt. Reprostative liegen in der Gegend von 500€, das war mir doch zu teuer. Für empfindliche Bücher ist eher an eine Buchwippe zu denken, wo das Buch nur 90 Grad geöffnet wird. Es gibt sogar eine Prismenkonstruktion, die nur etwa 45 Grad Buchöffnung braucht, aber das ist wieder sehr speziell.
An einigen Unis gibt es so Buchscanner welche man kostenfrei benutzen kann. Damit würde ich mal anfangen. Umwandeln in Text kann man dann später versuchen wenn einem wirklich langweilig ist, ob sich das so lohnt für eine Zeitschrift?
Schon mal herzlichen Dank für die Antworten, Johnny B. schrieb: > Allerdings frage ich mich, ob sich der ganze Aufwand überhaupt lohnt, > ausser Du machst es gerne und hast Freude daran, dann ist es etwas > anderes. Läubi .. schrieb: > ob sich das so > lohnt für eine Zeitschrift? Rational habt Ihr natürlich vollkommen recht. Über Sinn und Unsinn lässt sich sicher streiten... Aber erstens habe ich dafür mal 'ne Menge Geld ausgegeben, zweitens finde ich ab und an darin doch noch Idee und Anregungen, wie Dieses oder Jenes umsetzen kann (was ich im Netz ncht gefunden habe) und drittens ist schon ein bisschen Nostalgie dabei... Rufus Τ. Firefly schrieb: > Du könntest ja mal vorsichtig nachfragen, ob für diese nicht jemand > anderes das gleiche Problem hatte und bereits gelöst hat ... Daran habe ich leider nicht gedacht! OK, hat jemand die folgenden Zeitschriften vielleicht in PDF-Form: * EAM-Magazin mit Sonderheften (von Anfang bis Ende)? * Elektor (ab '89 bis 2007 ab da habe ich die auf CD)? * ELV mit Layoutblättern (ab ca. '89 bis heute)? * Bike (ab ca. '95 bis heute)? Läubi .. schrieb: > An einigen Unis gibt es so Buchscanner welche man kostenfrei benutzen > kann. Danke für den Tip. Für die ersten Versuche sicher eine gute Idee. Für die spätere Praxis auf Grund der Menge wahrscheinlich nicht so gut, mit Kisten dort anzurücken... ;) Christoph Kessler (db1uq) schrieb: > Die Kamera sollte dann aber schon (echte) ca. 16 MPixel haben :( Meine vorhandenen habe nur 8 bzw. 10... Die Idee war, wie einige im Netz das gemacht haben, ein einfaches Gestell aus Holz mit einem "Schlitten" zu bauen, das als Stativ fungiert und die Kamera immer in der gleichen Position hält. Werde am WE mal einfach ein paar "Knipsversuche" machen und dann die Ergebnisse mal versuchen umzuwandeln... Kennt jemand ein freies OCR-Programm, was Er empfehlen kann, um erst einmal Versuche zu machen? Vielen Dank und Gruß, Duesentrieb72
Frank M. schrieb: > finde ich ab und an darin doch noch Idee und Anregungen, wie > Dieses oder Jenes umsetzen kann > (was ich im Netz ncht gefunden habe) Da würde dann aber eine "bildhafte" Ablegung ggf. mit Keywords versehen sicher der wesentlich zeitsparenderere Weg. Das Problem bei OCR ist, dass du vermutlich nicht ohne Nacharbeit auskommen wirst, ggf. die Formatierung anpassen musst und gute Programme echt ins Geld gehen können, ganz abgesehen vom initialaufwand. Frank M. schrieb: > Kennt jemand ein freies OCR-Programm Ich benutze von Zeit zu Zeit tesseract, das erzeugt aber z.B. nur Text und die erkannten Texte sollte man nochmal Korrekturlesen ;-)
Läubi .. schrieb: > Das Problem bei OCR ist, dass du vermutlich nicht ohne Nacharbeit > auskommen wirst, ggf. die Formatierung anpassen musst und gute Programme > echt ins Geld gehen können, ganz abgesehen vom initialaufwand. Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem gescannten Bild einen OCR-ten Text dahinter liegen hat. Ich habe derartige Manuals schon gesehen (ich glaub' von HP). Damit kann man einerseits im PDF suchen, hat andererseits zur Ansicht stets den originalen Text, wie er gedruckt war. Damit muss man das OCR-Ergebnis nicht weiter nacharbeiten (sofern die Trefferrate insgesamt befriedi- gend genug ist, dass man im Normalfall mit der Suche auch wirklich was findet). Wird vermutlich nur von den Adobe-Tools selbst unterstützt, nehme ich mal an.
Jörg Wunsch schrieb: > Prinzipiell muss es möglich sein, dass Ja es gibt da sehr ausgefeilte Techniken, nur da ist man halt schnell bei kostenpflichtigen Tools, Readiris soll ganz gut sein, da gibt es eine Demo (http://www.irislink.com/c1-2252-48/I-R-I-S--Products---Trial-Version.aspx) die könnte man ja mal austesten, die Vollversion liegt bei 129$ aber kostenlos hab ich da noch nix vergleichbares gefunden.
Läubi .. schrieb: > die Vollversion liegt bei 129$ Was angesichts des zu verarbeitenden Zeitschriftenstapels wohl als Investition nicht aus der Rolle fallen würde. p.s.: Warum gibt's denn die Demo nur für Win* und nicht MacOS? Seltsam ... müssen Mac-User alles sofort kaufen?
Jörg Wunsch schrieb: > Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem > gescannten Bild einen OCR-ten Text dahinter liegen hat. Ja, gibt es. Die PDFs von älteren Papers werden oft auf diese Art erstellt. > Wird vermutlich nur von den Adobe-Tools selbst unterstützt, nehme ich > mal an. Letztendlich wird das ja über Layer im PDF realisiert. Es gibt auch Nicht-Adobe-Tools sie mit PDF-Layern zurechtkommen. Beispiel: http://wiki.ubuntuusers.de/pdfsandwich
J.-u. G. schrieb: > Jörg Wunsch schrieb: >> Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem >> gescannten Bild einen OCR-ten Text dahinter liegen hat. > > Ja, gibt es. Die PDFs von älteren Papers werden oft auf diese Art > erstellt. Die "elrad" DVD ist m.W. so erstellt. Gruss Harald
Ich hoffe dieser Artikel wird dir weiterhelfen. http://www.heise.de/open/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html
Frank M. schrieb: > * EAM-Magazin mit Sonderheften (von Anfang bis Ende)? Da würde ich mal bei Reinhard Gößler anfragen. > * Elektor (ab '89 bis 2007 ab da habe ich die auf CD)? Alle Artikel ab September 2005 gibt es als PDF. Für Die Jahrgänge ab 1996 existiert für jeden Artikel ein Bild und ein Anrisstext auf der Homepage, manchmal auch eine Stückliste. > * ELV mit Layoutblättern (ab ca. '89 bis heute)? Gibt es alle digitalisiert als PDF vom Verlag, mitunter auch aus dunklen Quellen. > * Bike (ab ca. '95 bis heute)? Abonnenten können sich alle PDF-Artikel kostenlos herunterladen.
Jörg Wunsch schrieb: > Läubi .. schrieb: >> Das Problem bei OCR ist, dass du vermutlich nicht ohne Nacharbeit >> auskommen wirst, ggf. die Formatierung anpassen musst und gute Programme >> echt ins Geld gehen können, ganz abgesehen vom initialaufwand. > > Prinzipiell muss es möglich sein, dass man in einem PDF hinter dem > gescannten Bild einen OCR-ten Text dahinter liegen hat. Ich habe > derartige Manuals schon gesehen (ich glaub' von HP). Damit kann man > einerseits im PDF suchen, hat andererseits zur Ansicht stets den > originalen Text, wie er gedruckt war. Damit muss man das OCR-Ergebnis > nicht weiter nacharbeiten (sofern die Trefferrate insgesamt befriedi- > gend genug ist, dass man im Normalfall mit der Suche auch wirklich > was findet). > > Wird vermutlich nur von den Adobe-Tools selbst unterstützt, nehme ich > mal an. Also mit Acrobat geht das sehr einfach, habe ich vor Jahren mal ausprobiert. z.B. bei Pearl gibts manchmal alte Versionen für rel. wenig Geld. Momentan wird Acrobat 9 für ca. EUR 100.- angeboten. http://www.pearl.de/a-PK4509-3122.shtml?query=acrobat Gratistools mit demselben Komfort und guter OCR wird es wahrscheinlich nicht geben.
Danke an (dahdidah dahdidah - oder was soll das heißen) für den Tip mit Tesseract/Gimagereader, das sieht ganz gut aus. Sogar Fraktur kann das lesen, das gibts bei Finereader erst für sehr viel Geld zusätzlich. Muss das unbedingt mal ausprobieren mit alten Texten. Das mit der Text/Bildüberlagerung hätte ich mit LibreOffice versucht, da kann man auch Bilder und Text hintereinanderlegen. "In PDF Drucken" ist dann eine eingebaute Funktion. PS: um ein Buch in LibreOffice als ein Bild pro Seite einzugeben, habe ich mal erst mit dem Hexeditor HxD eine Hexdatei nur aus vielen $12 = new page erzeugt und dann in (damals) OpenOffice eingelesen. Das ergibt eine entsprechende Anzahl leerer Seiten, in die man dann die gescannten Bilder eingeben kann. Seitenränder auf Null, dann sind die nicht so breit.
Prinzipiell mache ich das ähnlich, schon lange. Allerdings: Die Beiträge einzeln gescannt, und in Sachgruppen geordnet. Dann finde ich sie auch wieder. Vollständige Zeitschriften en bloc sind eher uninteressant. Dazu verwende ich einen flotten Scanner (ebucht), unter Linux (Knoppix oder Ubuntu) das Programm xsane im Mehrseiten-Modus als pdf. Auflösung 150dpi. Komprimierung ist nun noch nicht gut, dann wird es aus dem pdf-reader nochmal in ein pdf gedruckt. Dann bin ich bei etwa 150-300kB/Seite. Archivierung auf USB-Stick. OCR habe ich noch nicht getestet, dürfte mit spaltenweisem Text und Bildern zuviel Nachbearbeitung erfordern. Habe schon viel anderes versucht, aber das ist so die beste Lösung. Geht auch bei 250-Seiten-Büchern ohne Nervenzusammenbruch. Ein "Tausch" von Dateien dürfte rechtlich problematisch sein, ich würde es nicht online machen.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.