Forum: PC Hard- und Software Scanner / OCR Frage


von Johannes (Gast)


Lesenswert?

Hallo,
ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text 
konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus 
Zeitmangel.

Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg) 
konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr 
Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem 
*.BMP aufbewahren?

von Sven W. (Firma: basement industries) (dj8nw)


Lesenswert?

Johannes schrieb:
> Hallo,
> ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text
> konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus
> Zeitmangel.
>
> Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg)
> konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr
> Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem
> *.BMP aufbewahren?

Warum nicht als Vektordatei... pdf usw....

Gruß, Sven

von bingo (Gast)


Lesenswert?

Mit komprimiertem JPG wirst Du nicht glücklich. Nimm am bestem PNG.

von Johannes (Gast)


Lesenswert?

>Warum nicht als Vektordatei... pdf usw....
>
>Gruß, Sven

Die Rohdaten eines Scans liegen als Pixel vor.
Eine Konversion ohne OCR in PDF bringt nichts, da im Containerformat PDF 
dann die Grafik gespeichert wuerde und die Dateien noch groesser 
wuerden.


Da ich mir das OCR-Programm noch nicht gekauft habe (Abbys Finereader 
10.0), kann ich es nicht ausprobieren.

von Peter (Gast)


Lesenswert?

es geht auch mit JPG gut, die Frage ist wie stark komprimiert wird!!

von Peter (Gast)


Lesenswert?

Nachtrag:
   Für OCR reicht im Regelfall schwarz/weiss, das lässt sich am besten 
mit TIFF/Fax4 speichern.

von oszi40 (Gast)


Lesenswert?

Johannes schrieb:
> Hallo,
> ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text
> konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus
> Zeitmangel.
>
> Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg)
> konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr
> Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem
> *.BMP aufbewahren?

In ungünstigen Fällen 400 BMP-Seiten a 40MB= 16 000 MB?

Da wir nicht wissen wie gut Dein OCR arbeitet und wie stark Deine jpg 
komprimiert sind, wird Dir im konkretem Fall nur ein praktischer Versuch 
helfen. Jedenfalls sind 99% Erkennungsrate: 1 Fehler auf 100 Zeichen! 
Das ist schlecht. Du solltest rechtzeitig testen.

von Sven W. (Firma: basement industries) (dj8nw)


Lesenswert?

Johannes schrieb:
>>Warum nicht als Vektordatei... pdf usw....
>>
>>Gruß, Sven
>
> Die Rohdaten eines Scans liegen als Pixel vor.

schon klar

> Eine Konversion ohne OCR in PDF bringt nichts,

ist denn bei deinem Scanner nix dabei?

> da im Containerformat PDF
> dann die Grafik gespeichert wuerde und die Dateien noch groesser
> wuerden.

na dann viel Spaß mit *.bmp...


> Da ich mir das OCR-Programm noch nicht gekauft habe (Abbys Finereader
> 10.0), kann ich es nicht ausprobieren.

s.o.

btw würd ich *.png draus machen....
Gruß, Sven

von oszi40 (Gast)


Lesenswert?

>Finereader
Sollte es als Testversion für einige Seiten kostenlos geben.

von Ing. ET (Gast)


Lesenswert?

>>Finereader
>Sollte es als Testversion für einige Seiten kostenlos geben.

Habe die Version 9.0 schon getestet, eine weitere Test-Version nicht 
mehr moeglich.
Leider habe ich bei 9.0 nicht getestet, wie sich OCR bei *.jpg und *.bmp 
der gleichen Seite verhaelt.

von Semi (Gast)


Lesenswert?

Die meisten Scanner haben Firmeware Software mit dem Treiber geliefert
und haben eine Option OCR. Dann wird die Auflösung und Format durch den 
Scanner schon Optimiert.

.png "Portable Network Grafik"(Alphakanal,Layer,usw) ist was fürs Web 
und Designer

Standard für OCR ist eigentlich   .tif  ; .tiff

.jpg ;.bmp ;.pdf ist auch möglich ,
es muss nur eine ausgewogenes Verhältniss von 
Komprimierung-Auflösung-und Fehlerpixel( auf dem Orginaldokument) 
gewählt werden.

Maximale Scanner Auflösung bringt eher einen Nachteil.

Dann Sitz man Stunden lang und korregiert Buchstaben, die in 
Wirklichkeit nur Schmutzpixel oder Schatten sind.

150dpi für Schreibmaschinen Schrift mit 10p Schrifthöhe reicht aus.

Die OCR Engien's der Programme sind sehr sehr unterschiedlich.

Vor einem Kauf immer Testversion besorgen.

Mein Favorit ist OmniPage.

von oszi40 (Gast)


Lesenswert?

Semi schrieb:
> 150dpi für Schreibmaschinen Schrift mit 10p Schrifthöhe reicht aus.

Es kommt auf die optische Qualität an. Mir wurden 600dpi geraten um 
möglichst wenig Fehler zu haben. Wer ohne Erfahrung glaubt in wenigen 
Minuten alles FEHLERFREI gescannt zu haben ist ein Optimist.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.