Nach dem Thread über alte DIL Chips wäre es sinnvoll daß
Typbezeichnungen per OCR automatisch erkannt werden, und im Text ergänzt
werden.
Was meint ihr?
Meinte diesen:
Beitrag "[V] Alte DIL Rechner Chips.."
Warum? Um dem Verkäufer noch mehr Faulheit zu gönnen? Eine
aussagekräftige Überschrift fördert den Verkauf. Das ist seit Ebay
eigentlich bekannt...
Wen's interessiert, der liest den Thread, alle anderen scrollen weiter.
So what?
Google Docs lässt OCR über Bilder laufen. Funktioniert sehr gut, man
kann den Text einfach markieren und in die Textverarbeitung einfügen.
Musst nur eben mit Rechnen das Google das dann mit dir in Verbindung
bringt.
Bei einer OCR ist das A+O der Winkel des Textes. Weshalb alle mir
bekannten Programme zuerst versuchen, das Bild Winkelig zu machen.
Ein gute Kontrast ist auch nicht sooo schlecht, obwohl den die meisten
Software-Prg. die ich kenne auch automatisch einstellen.
Ansonsten sinkt die Trefferrate gewaltig.
Zaubern können aber alle nicht. Mist ist und bleibt Mist, auch wenn man
es parfümiert.
Allerdings bin ich mit den Ergebnis halbwegs zufrieden, wenn ich ein
Dokument scanne und dann wandeln lasse.
Aber was für die Freaks hier. Eine Seite hat 2000 Zeichen wenn sie voll
bedruckt ist. 99,9 % bedeutet 2 Fehler pro Seite. Und die sind zu 70%
meiner Erfahrung nach in der Satzzeichensetzung zu finden ;)
Schlaumaier schrieb:> . Und die sind zu 70% meiner Erfahrung nach in der Satzzeichensetzung zu> finden ;)
Dann erfreue mal Deine OCR mit Texten, in denen Sonderzeichen und
Umlaute auftauchen, von denen der Durchschnitts-Usaniter nicht einmal
weiß, dass sie existieren, geschweige denn, wie sie heißen oder gar
aussehen.
Gibt es eigentlich schon brauchbare OCR für Kanji?
Percy N. schrieb:> Dann erfreue mal Deine OCR mit Texten, in denen Sonderzeichen und> Umlaute auftauchen, von denen der Durchschnitts-Usaniter nicht einmal> weiß, dass sie existieren, geschweige denn, wie sie heißen oder gar> aussehen.
Ich bin Deutscher. Und mir reicht es wenn ich mich bei Deutschen Texten
mit ein Semikolon herum ärgern muss. das klappt nämlich zu 90% nicht. ;)
Die besten sind die englischen. Da ist die Trefferqoute viel besser.
Anders habe ich noch nie gemacht.
Ich muss aber gestehen das ich das nur mache, wenn ich das Dokument
danach durchsuchen will, und mir als "Nachschlagewerk" ablege.
Schlaumaier schrieb:> Percy N. schrieb:>>> Dann erfreue mal Deine OCR mit Texten, in denen Sonderzeichen und>> Umlaute auftauchen, von denen der Durchschnitts-Usaniter nicht einmal>> weiß, dass sie existieren, geschweige denn, wie sie heißen oder gar>> aussehen.>> Ich bin Deutscher. Und mir reicht es wenn ich mich bei Deutschen Texten
Ja, wo kommen denn wohl die oben erwähnten Umlaute gern mal vor?
> mit ein Semikolon herum ärgern muss. das klappt nämlich zu 90% nicht. ;)> Die besten sind die englischen. Da ist die Trefferqoute viel besser.
Außerhalb des Heavy-Metal-Bereiches sicherlich.
Welch Wunder - welcher Zeichensatz ist wihl der einzige, den die meisten
Usaniter jemals gesehen haben?
> Anders habe ich noch nie gemacht.
Na sowas ...
Hallo
Schlaumaier schrieb:> Bei einer OCR ist das A+O der Winkel des Textes. Weshalb alle mir> bekannten Programme zuerst versuchen, das Bild Winkelig zu machen.>> Ein gute Kontrast ist auch nicht sooo schlecht, obwohl den die meisten> Software-Prg. die ich kenne auch automatisch einstellen.>> Ansonsten sinkt die Trefferrate gewaltig.
Leider hat er recht damit, was auch bedeutet:
Wenn man als Mensch schon Probleme hat den Text z.B. auf einen IC zu
entziffern (und das gibt es oft genug - 0 Null oder O Ohh, ein Logo
oder eine liegende 8, eine US 1 (I ein oller Strich)) oder eine die man
deutlich erkennt -1-, eine eckige 7 die mehr wie ein Winkel ausschaut
oder eben eine klar erkennbare 7 eine...?) dann dürfte auch eine gute
OCR hoffnunglos überfordert sein.
Selbt bei guten Texten aus Büchern welche als Bilddatei wie z.B. jpg
vorliegen gibt es oft Probleme (Anordnung, ungewöhnliche Aufteilung,
echte Bilder dazwischen...) fordern eine OCR heraus, insbesondere wenn
sie keine Gelegenheit hat mit unterstützung des Erstellers der Bilder zu
lernen wie die Scans aus diesen einen Buch (Dokument, Brief...) in
"vernünftigen" text zu wandeln ist.
Praktiker
Percy N. schrieb:> Ja, wo kommen denn wohl die oben erwähnten Umlaute gern mal vor?
Die schlimmsten die ich kenne aus den Französischen, da sind die Kommas
oben und unten bei ein Text. Und die sind unten schon schlimm genug.
Praktiker schrieb:> Wenn man als Mensch schon Probleme hat den Text z.B. auf einen IC zu> entziffern
Der einzige Grund wieso die OCR in den letzten Jahren zu halbwegs guten
Ergebnissen kommt ist, das sie das Erkannte Ergebnis durch eine
Rechtschreibprüfung jagt. Die korrigiert dann das erkannte Ergebnis und
verbessert dadurch das Gesamtergebnis.
NUR, geht das mit irgendwelchen Zeichensammlungen ohne Sinn + Verstand
nicht. Was zum Teil dazu führt das ein richtigen Erkennen sogar versaut
wird.
Ich persönlich bin schon zufrieden, wenn das Makro meines Handys mir
anzeigt was überhaupt bei so ein Chip drauf steht.
Bin halt bescheiden. ;)
G.Ast schrieb:> Nach dem Thread über alte DIL Chips wäre es sinnvoll daß> Typbezeichnungen per OCR automatisch erkannt werden, und im Text ergänzt> werden.>> Was meint ihr?
Wieder ein Vorschlag aus der Rubrik: "Eine Stunde programmieren erspart
fünf Minuten Nachdenken".
Wer IC zum Verkauf anbietet, sollte doch deren Funktion und Typ kennen
und das mit 3/4 Wörtern niederschreiben können. Und wenn man es nicht
weiss, dann recherchiert man schon aus Gründen des Werterhaltes mal kurz
zum aktuellen Preis - nicht das man einen antiquarisch wertvollen i4004
für nen Apple und ein Ei weggibt.
Beitrag "Seltenste bzw. teuerste Bauteil in der Bastelkiste"
Ansonsten, wie hoch ist der Zeitaufwand fünf 8stellige Codes in den
begleitext zu tippern ?! Und wie hoh ist der Aufwand das
*Auszuleuchten und Abzufotografieren
*auf den PC zu laden
*für OCR per Bildverarbeitung vorverarbeiten
*OCR laufen zu lassen
*OCR-Ergebnis zu verifizieren
Klartexter schrieb:> Wer IC zum Verkauf anbietet, sollte doch deren Funktion und Typ kennen> und das mit 3/4 Wörtern niederschreiben können.
Nö, und wenn Du das einforderst, wirst Du vom Mod abgebürstet:
Beitrag "[V] Alte DIL Rechner Chips.."
Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.
Wichtige Regeln - erst lesen, dann posten!
Groß- und Kleinschreibung verwenden
Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang