Forum: PC Hard- und Software OCR in Script-Programmen unter Windows


von J. W. (nuernberger)


Angehängte Dateien:

Lesenswert?

Innerhalb vom Skript brauche ich OCR, um Bildschirminhalte zu 
untersuchen.
Tesseract schien mir sinnvoll.
Gerade die neueste Version installiert (3.0.2) bin ich sehr unzufrieden.

Ich habe mal einen Editor-Text als Grafik scannen lassen.
1
c:\Users\Public\Tesseract-OCR\tesseract.exe  snip1.JPG  1.txt
Heraus kommt:

we meme Entchen schwuumen auf dem Ssh scnmmmen auf dem Ssh
Scmvanzchen my new Nasser Kopfchen my me Huh



Also, da hätte ich mehr erwartet.
Was wären Alternativen?

von Di P. (drpepper) Benutzerseite


Lesenswert?

Eventuell wird mit einem Wörterbuch abgeglichen oder typische englische 
Silben erkannt. Versuch das mal rauszufinden und ggf abzuschalten.

von J. W. (nuernberger)


Lesenswert?

Ja, defaultmässig wird wohl englisch installiert worden sein.
Ich will mich nicht auf eine Sprache festlegen, da es universell nutzbar 
sein soll.

Aber bei so einer klaren Grafik hätte ich eine 100%-ige Erkennung 
erwartet.
Die Voraussetzungen sind hier ideal und nicht wie bei einem Papier-Scan 
(schiefe linien, Dreck/Staub-Pixel, ...)

von c.m. (Gast)


Lesenswert?

nuja, mit englischem abgleich-wörterbuch sind die punkte über den 
umlauten dreck.
offensichtlich kann ocr auch 2013 immernoch nicht richtig "lesen" und 
muss auf tricks zurückgreifen um die "erkennungs"rate zu verbessern - 
und in diesem fall scheint der trick direkt mal eine verschlechterung 
bewirkt zu haben.

von J. W. (nuernberger)


Lesenswert?

Das könnte ein Antwort sein:

http://markmail.org/message/idoes77vyhuq45ww#query:+page:1+mid:2llgcorkppvrdgnv+state:results
I believe the previous response is correct:  tesseract needs
characters to have a a pretty large height in terms of pixels.  There
is probably something in the FAQ.  On 4-21-09 I had a post with more
details.

On Aug 5, 9:24 am, jia <jiap...@gmail.com> wrote:
Hello, group,

I'm trying to use tesseract to recognize text in screen capture
images. However, tesseract doesn't recognize anything on the font size
commonly used in GUI. See the file named "capture.tif" for an example.
However it does work on larger font. I suspect it has to do with the
very thin stroke in smaller font. If that's the case, is there any
parameters I can tune to make it work on smaller font?



Die Buchstaben-Höhe in Pixel sind bei einen PapierScan natürlich größer 
(Resolution >= 300dpi vorausgesetzt)
Vermutlich kann Tesseract kleine Pixelhöhen nicht handeln, trotz 
sonstigen idealen Bedingungen (kein Rauschen, exact horizontal-gerade 
Linien ...)

von Chris (Gast)


Lesenswert?

Abgesehen vielleicht von der Hòhe hat Tesseract ein Problem, wenn die
Breite zu nahe zusammen ist. Man kann dies hier auch schòn erkennen.
Deshalb wird oft auch OpenCV oder Leptonica dazu verwendet, die 
Buchstaben
zu trennen und dann Tesseract einzeln zuzufuehren. Dann funktioniert es.

von Rufus Τ. F. (rufus) Benutzerseite


Lesenswert?

J. Wa. schrieb:
> Aber bei so einer klaren Grafik

Hast Du die als JPG verwendet, oder in einem verlustfrei komprimierenden 
Format? Wenn JPG, dann könnte die OCR über die JPEG-Artefakte stolpern.

Ansonsten: Die Schriftgröße ist für eine OCR grenzwertig klein.

von Chris (Gast)


Lesenswert?

Und setze diese auf false damit die Woerter nicht Englisch werden.

load_system_dawg
load_freq_dawg
load_punc_dawg
load_number_dawg
load_unambig_dawg
load_bigram_dawg
load_fixed_length_dawgs

von J. W. (nuernberger)


Angehängte Dateien:

Lesenswert?

> Deshalb wird oft auch OpenCV oder Leptonica dazu verwendet, die
> Buchstaben
> zu trennen und dann Tesseract einzeln zuzufuehren. Dann funktioniert es.

Fehlanzeige. Leptonica ist schon dabei. Das sieht man an der Ausgabe.



> Wenn JPG, dann könnte die OCR über die JPEG-Artefakte stolpern.
Ich habe es nochmal mit PNG versucht. Das Ergebnis ähnlich übel.

1
H:\tmp>c:\Users\Public\Tesseract-OCR\tesseract.exe  Snip1.PNG  1.txt
2
Tesseract Open Source OCR Engine v3.02 with Leptonica
3
4
5
H:\tmp>more 1.txt.txt
6
.7. Ha. schxxab:
7
> Abe: be) so elngr ldazen Gxafxk
8
9
Has: nu ma als are vuuenaec, ndex m elnun vgrlustfxex kanlpzunexgnden
10
Fnzmac? Vknn .195, dann kénnt: d1: ocn ubex dle .7'El5—Az::fak:e scclpun.
11
12
Anannslzen: D1: Schxxfbqiéfle 1;: fix: use ocn qrenzwertlq klem.

: Bearbeitet durch User
von Rufus Τ. F. (rufus) Benutzerseite


Lesenswert?

Dann probier das ganze doch nochmal mit einem deutlich höheren 
ppem-Wert.

Nochmal: Die Schrift ist zu klein.

von J. W. (nuernberger)


Lesenswert?

Ich habe das ganze mit Abbys Finereader 9.0 probiert.
Da kam die Warnung, dass keine Resolution eingetragen ist, und er von 
300dpi ausgeht.
Finereader konnte keinen einzigen Buchstaben erkennen.

Dann habe ich manuell die Auflösung auf 96dpi geändert und alle 
Buchstaben wurden sauber erkannt.
Allerdings konnte er keine speziellen Buchstaben (Ñ ñ é)

von Di P. (drpepper) Benutzerseite


Angehängte Dateien:

Lesenswert?

wenn das ganze auf 800 px höhe raufgesampled wird, erkennt 
http://www.ocr-extract.com (German) das ganze recht gut:
1
AHe meine Entchen schwimmen auf dem Säh, schwimmen auf dem Säh,
2
3
Schwänzchen in dem Nasser, Köpfchen in die Höh

von oszi40 (Gast)


Lesenswert?

Eine OCR-Erkennung von 99% heißt auch, daß jeder 100. Buchstabe falsch 
sein kann. Schlechter wird die Erkennung noch, wenn der Text nicht im 
Wörterbuch zu finden ist oder schon 3x kopiert wurde.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.