www.mikrocontroller.net

Forum: PC Hard- und Software Scanner / OCR Frage


Autor: Johannes (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo,
ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text 
konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus 
Zeitmangel.

Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg) 
konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr 
Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem 
*.BMP aufbewahren?

Autor: Sven W. (Firma: basement industries) (dj8nw)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Johannes schrieb:
> Hallo,
> ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text
> konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus
> Zeitmangel.
>
> Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg)
> konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr
> Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem
> *.BMP aufbewahren?

Warum nicht als Vektordatei... pdf usw....

Gruß, Sven

Autor: bingo (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Mit komprimiertem JPG wirst Du nicht glücklich. Nimm am bestem PNG.

Autor: Johannes (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
>Warum nicht als Vektordatei... pdf usw....
>
>Gruß, Sven

Die Rohdaten eines Scans liegen als Pixel vor.
Eine Konversion ohne OCR in PDF bringt nichts, da im Containerformat PDF 
dann die Grafik gespeichert wuerde und die Dateien noch groesser 
wuerden.


Da ich mir das OCR-Programm noch nicht gekauft habe (Abbys Finereader 
10.0), kann ich es nicht ausprobieren.

Autor: Peter (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
es geht auch mit JPG gut, die Frage ist wie stark komprimiert wird!!

Autor: Peter (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Nachtrag:
   Für OCR reicht im Regelfall schwarz/weiss, das lässt sich am besten 
mit TIFF/Fax4 speichern.

Autor: oszi40 (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Johannes schrieb:
> Hallo,
> ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text
> konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus
> Zeitmangel.
>
> Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg)
> konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr
> Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem
> *.BMP aufbewahren?

In ungünstigen Fällen 400 BMP-Seiten a 40MB= 16 000 MB?

Da wir nicht wissen wie gut Dein OCR arbeitet und wie stark Deine jpg 
komprimiert sind, wird Dir im konkretem Fall nur ein praktischer Versuch 
helfen. Jedenfalls sind 99% Erkennungsrate: 1 Fehler auf 100 Zeichen! 
Das ist schlecht. Du solltest rechtzeitig testen.

Autor: Sven W. (Firma: basement industries) (dj8nw)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Johannes schrieb:
>>Warum nicht als Vektordatei... pdf usw....
>>
>>Gruß, Sven
>
> Die Rohdaten eines Scans liegen als Pixel vor.

schon klar

> Eine Konversion ohne OCR in PDF bringt nichts,

ist denn bei deinem Scanner nix dabei?

> da im Containerformat PDF
> dann die Grafik gespeichert wuerde und die Dateien noch groesser
> wuerden.

na dann viel Spaß mit *.bmp...


> Da ich mir das OCR-Programm noch nicht gekauft habe (Abbys Finereader
> 10.0), kann ich es nicht ausprobieren.

s.o.

btw würd ich *.png draus machen....
Gruß, Sven

Autor: oszi40 (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
>Finereader
Sollte es als Testversion für einige Seiten kostenlos geben.

Autor: Ing. ET (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
>>Finereader
>Sollte es als Testversion für einige Seiten kostenlos geben.

Habe die Version 9.0 schon getestet, eine weitere Test-Version nicht 
mehr moeglich.
Leider habe ich bei 9.0 nicht getestet, wie sich OCR bei *.jpg und *.bmp 
der gleichen Seite verhaelt.

Autor: Semi (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Die meisten Scanner haben Firmeware Software mit dem Treiber geliefert
und haben eine Option OCR. Dann wird die Auflösung und Format durch den 
Scanner schon Optimiert.

.png "Portable Network Grafik"(Alphakanal,Layer,usw) ist was fürs Web 
und Designer

Standard für OCR ist eigentlich   .tif  ; .tiff

.jpg ;.bmp ;.pdf ist auch möglich ,
es muss nur eine ausgewogenes Verhältniss von 
Komprimierung-Auflösung-und Fehlerpixel( auf dem Orginaldokument) 
gewählt werden.

Maximale Scanner Auflösung bringt eher einen Nachteil.

Dann Sitz man Stunden lang und korregiert Buchstaben, die in 
Wirklichkeit nur Schmutzpixel oder Schatten sind.

150dpi für Schreibmaschinen Schrift mit 10p Schrifthöhe reicht aus.

Die OCR Engien's der Programme sind sehr sehr unterschiedlich.

Vor einem Kauf immer Testversion besorgen.

Mein Favorit ist OmniPage.

Autor: oszi40 (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Semi schrieb:
> 150dpi für Schreibmaschinen Schrift mit 10p Schrifthöhe reicht aus.

Es kommt auf die optische Qualität an. Mir wurden 600dpi geraten um 
möglichst wenig Fehler zu haben. Wer ohne Erfahrung glaubt in wenigen 
Minuten alles FEHLERFREI gescannt zu haben ist ein Optimist.

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.
Hinweis: der ursprüngliche Beitrag ist mehr als 6 Monate alt.
Bitte hier nur auf die ursprüngliche Frage antworten,
für neue Fragen einen neuen Beitrag erstellen.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.