Forum: www.mikrocontroller.net OCR für hochgeladene Bilder einbauen


von G.Ast (Gast)


Lesenswert?

Nach dem Thread über alte DIL Chips wäre es sinnvoll daß 
Typbezeichnungen per OCR automatisch erkannt werden, und im Text ergänzt 
werden.

Was meint ihr?

Meinte diesen:
Beitrag "[V] Alte DIL Rechner Chips.."

von Roland E. (roland0815)


Lesenswert?

Warum? Um dem Verkäufer noch mehr Faulheit zu gönnen? Eine 
aussagekräftige Überschrift fördert den Verkauf. Das ist seit Ebay 
eigentlich bekannt...

Wen's interessiert, der liest den Thread, alle anderen scrollen weiter. 
So what?

von Thomas (kosmos)


Lesenswert?

Google Docs lässt OCR über Bilder laufen. Funktioniert sehr gut, man 
kann den Text einfach markieren und in die Textverarbeitung einfügen. 
Musst nur eben mit Rechnen das Google das dann mit dir in Verbindung 
bringt.

von Percy N. (vox_bovi)


Lesenswert?

Bei

Beitrag "[V] Konvolut alter DIL ICs Bild"

würde auch OCR nur wenig bringen.

von Schlaumaier (Gast)


Lesenswert?

Bei einer OCR ist das A+O der Winkel des Textes. Weshalb alle mir 
bekannten Programme zuerst versuchen, das Bild Winkelig zu machen.

Ein gute Kontrast ist auch nicht sooo schlecht, obwohl den die meisten 
Software-Prg. die ich kenne auch automatisch einstellen.

Ansonsten sinkt die Trefferrate gewaltig.

Zaubern können aber alle nicht.  Mist ist und bleibt Mist, auch wenn man 
es parfümiert.

Allerdings bin ich mit den Ergebnis halbwegs zufrieden, wenn ich ein 
Dokument scanne und dann wandeln lasse.

Aber was für die Freaks hier. Eine Seite hat 2000 Zeichen wenn sie voll 
bedruckt ist. 99,9 % bedeutet 2 Fehler pro Seite. Und die sind zu 70% 
meiner Erfahrung nach in der Satzzeichensetzung zu finden ;)

von Percy N. (vox_bovi)


Lesenswert?

Schlaumaier schrieb:
> . Und die sind zu 70% meiner Erfahrung nach in der Satzzeichensetzung zu
> finden ;)

Dann erfreue mal Deine OCR mit Texten, in denen Sonderzeichen und 
Umlaute auftauchen, von denen der Durchschnitts-Usaniter nicht einmal 
weiß,  dass sie existieren, geschweige denn, wie sie heißen oder gar 
aussehen.

Gibt es eigentlich schon brauchbare OCR für Kanji?

von Schlaumaier (Gast)


Lesenswert?

Percy N. schrieb:
> Dann erfreue mal Deine OCR mit Texten, in denen Sonderzeichen und
> Umlaute auftauchen, von denen der Durchschnitts-Usaniter nicht einmal
> weiß,  dass sie existieren, geschweige denn, wie sie heißen oder gar
> aussehen.

Ich bin Deutscher. Und mir reicht es wenn ich mich bei Deutschen Texten 
mit ein Semikolon herum ärgern muss. das klappt nämlich zu 90% nicht. ;)

Die besten sind die englischen. Da ist die Trefferqoute viel besser. 
Anders habe ich noch nie gemacht.

Ich muss aber gestehen das ich das nur mache, wenn ich das Dokument 
danach durchsuchen will, und mir als "Nachschlagewerk" ablege.

von Percy N. (vox_bovi)


Lesenswert?

Schlaumaier schrieb:
> Percy N. schrieb:
>
>> Dann erfreue mal Deine OCR mit Texten, in denen Sonderzeichen und
>> Umlaute auftauchen, von denen der Durchschnitts-Usaniter nicht einmal
>> weiß,  dass sie existieren, geschweige denn, wie sie heißen oder gar
>> aussehen.
>
> Ich bin Deutscher. Und mir reicht es wenn ich mich bei Deutschen Texten
Ja, wo kommen denn wohl die oben erwähnten Umlaute gern mal vor?
> mit ein Semikolon herum ärgern muss. das klappt nämlich zu 90% nicht. ;)
> Die besten sind die englischen. Da ist die Trefferqoute viel besser.
Außerhalb des Heavy-Metal-Bereiches sicherlich.
Welch Wunder - welcher Zeichensatz ist wihl der einzige, den die meisten 
Usaniter jemals gesehen haben?
> Anders habe ich noch nie gemacht.
Na sowas ...

von Praktiker (Gast)


Lesenswert?

Hallo

Schlaumaier schrieb:
> Bei einer OCR ist das A+O der Winkel des Textes. Weshalb alle mir
> bekannten Programme zuerst versuchen, das Bild Winkelig zu machen.
>
> Ein gute Kontrast ist auch nicht sooo schlecht, obwohl den die meisten
> Software-Prg. die ich kenne auch automatisch einstellen.
>
> Ansonsten sinkt die Trefferrate gewaltig.

Leider hat er recht damit, was auch bedeutet:
Wenn man als Mensch schon Probleme hat den Text z.B. auf einen IC zu 
entziffern (und das gibt es oft genug - 0 Null oder O  Ohh, ein Logo 
oder eine liegende 8, eine US 1 (I ein oller Strich)) oder eine die man 
deutlich erkennt -1-, eine eckige 7 die mehr wie ein Winkel ausschaut 
oder eben eine klar erkennbare 7 eine...?) dann dürfte auch eine gute 
OCR hoffnunglos überfordert sein.
Selbt bei guten Texten aus Büchern welche als Bilddatei wie z.B. jpg 
vorliegen gibt es oft Probleme (Anordnung, ungewöhnliche Aufteilung, 
echte Bilder dazwischen...) fordern eine OCR heraus, insbesondere wenn 
sie keine Gelegenheit hat mit unterstützung des Erstellers der Bilder zu 
lernen wie die Scans aus diesen einen Buch (Dokument, Brief...) in 
"vernünftigen" text zu wandeln ist.

Praktiker

von Schlaumaier (Gast)


Lesenswert?

Percy N. schrieb:
> Ja, wo kommen denn wohl die oben erwähnten Umlaute gern mal vor?

Die schlimmsten die ich kenne aus den Französischen, da sind die Kommas 
oben und unten bei ein Text. Und die sind unten schon schlimm genug.

Praktiker schrieb:
> Wenn man als Mensch schon Probleme hat den Text z.B. auf einen IC zu
> entziffern

Der einzige Grund wieso die OCR in den letzten Jahren zu halbwegs guten 
Ergebnissen kommt ist, das sie das Erkannte Ergebnis durch eine 
Rechtschreibprüfung jagt. Die korrigiert dann das erkannte  Ergebnis und 
verbessert dadurch das Gesamtergebnis.

NUR, geht das mit irgendwelchen Zeichensammlungen ohne Sinn + Verstand 
nicht. Was zum Teil dazu führt das ein richtigen Erkennen sogar versaut 
wird.


Ich persönlich bin schon zufrieden, wenn das Makro meines Handys mir 
anzeigt was überhaupt bei so ein Chip drauf steht.

Bin halt bescheiden. ;)

von Klartexter (Gast)


Lesenswert?

G.Ast schrieb:
> Nach dem Thread über alte DIL Chips wäre es sinnvoll daß
> Typbezeichnungen per OCR automatisch erkannt werden, und im Text ergänzt
> werden.
>
> Was meint ihr?

Wieder ein Vorschlag aus der Rubrik: "Eine Stunde programmieren erspart 
fünf Minuten Nachdenken".

Wer IC zum Verkauf anbietet, sollte doch deren Funktion und Typ kennen 
und das mit 3/4 Wörtern niederschreiben können. Und wenn man es nicht 
weiss, dann recherchiert man schon aus Gründen des Werterhaltes mal kurz 
zum aktuellen Preis - nicht das man einen antiquarisch wertvollen i4004 
für nen Apple und ein Ei weggibt. 
Beitrag "Seltenste bzw. teuerste Bauteil in der Bastelkiste"

Ansonsten, wie hoch ist der Zeitaufwand fünf 8stellige Codes in den 
begleitext zu tippern ?! Und wie hoh ist der Aufwand das
*Auszuleuchten und Abzufotografieren
*auf den PC zu laden
*für OCR per Bildverarbeitung vorverarbeiten
*OCR laufen zu lassen
*OCR-Ergebnis zu verifizieren

von Patrick L. (Firma: S-C-I DATA GbR) (pali64)


Lesenswert?

Klartexter schrieb:
> *OCR-Ergebnis zu verifizieren

und 100% sicher noch:

> Nachbessern ;-)

von Patrick L. (Firma: S-C-I DATA GbR) (pali64)


Lesenswert?

Patrick L. schrieb:
> Klartexter schrieb:
>> *OCR-Ergebnis zu verifizieren
>
> und 100% sicher noch:
>
>> Nachbessern ;-)
@Klartexter +1

von Percy N. (vox_bovi)


Lesenswert?

Klartexter schrieb:
> Wer IC zum Verkauf anbietet, sollte doch deren Funktion und Typ kennen
> und das mit 3/4 Wörtern niederschreiben können.

Nö, und wenn Du das einforderst, wirst Du vom Mod abgebürstet:

Beitrag "[V] Alte DIL Rechner Chips.."

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.