mikrocontroller.net

Forum: PC Hard- und Software Wie funktioniert ein offline-Wörterbuch?


Announcement: there is an English version of this forum on EmbDev.net. Posts you create there will be displayed on Mikrocontroller.net and EmbDev.net.
Autor: Nasenmäher (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo,

staune eben mal wieder: Es wird das Wort "Rasenmäher" beanstandet, die 
Vorschläge des Systems sind dann:

Rassenmäher, Rosenmäher, Nasenmäher, Hasenmäher ...

Was für ein grandioser Unsinn !

Hat sich schon mal jemand damit beschäftigt, wie so ein im Hintergrund 
arbeitendes Wörterbuch funktioniert? Werden da nur einzelne Wörter im 
Unverstand zusammengesetzt, denn mit ca. 200 kB ist die Datei auffällig 
klein.

Harald

Autor: Yalu X. (yalu) (Moderator)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Da gibt es gute und weniger gute. Das von dir verwendete basiert
offensichtlich auf KI, denn ein strohdummes, das einfach eine
Wörterliste benutzt, würde den Rasenmäher nicht beanstanden und auch
keine solch unsinnigen Alternativvorschläge machen.

Autor: Reinhard S. (rezz)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Bisher hat mir noch kein Offline-Wörterbuch Alternativvorschläge 
gemacht...
SCNR.

: Bearbeitet durch User
Autor: c-hater (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Yalu X. schrieb:

> Das von dir verwendete basiert
> offensichtlich auf KI, denn ein strohdummes, das einfach eine
> Wörterliste benutzt, würde den Rasenmäher nicht beanstanden und auch
> keine solch unsinnigen Alternativvorschläge machen.

Wenn nun bei der dummen Lösung in der Wortliste das Wort "Rasen" nicht 
enthalten ist, das Wort "Mäher" aber schon? Dann könnte auch genau sowas 
rauskommen.

Vermutlich ist schlicht das Vokabular viel zu klein. In 200kB passt 
selbst mit Komprimierung nur schwerlich der Sprachumfang der deutschen 
Umgangssprache.

Autor: georg (Gast)
Datum:

Bewertung
4 lesenswert
nicht lesenswert
Nasenmäher schrieb:
> Rassenmäher, Rosenmäher, Nasenmäher, Hasenmäher

Deswegen heisst es ja derzeit, die KI stünde an der Schwelle zur eigenen 
Kreativität. Auf sowas muss man erst mal kommen - wäre dir das 
eingefallen?

Georg

Autor: c-hater (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
georg schrieb:

> Nasenmäher schrieb:
>> Rassenmäher, Rosenmäher, Nasenmäher, Hasenmäher
>
> Deswegen heisst es ja derzeit, die KI stünde an der Schwelle zur eigenen
> Kreativität. Auf sowas muss man erst mal kommen - wäre dir das
> eingefallen?

Um auf solche Ideen zu kommen, braucht man keine KI. Das schaffen auch 
die klassischen "dummen" Lösungen völlig problemlos.

Auslöser ist immer, wenn ein Wort nicht im Vokabular ist. Ob dann eine 
KI oder eine manuell programmierte "Ähnlichkeitssuche" anspringt, spielt 
eigentlich überhaupt keine Rolle.

Autor: rbx (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
c-hater schrieb:
> Um auf solche Ideen zu kommen, braucht man keine KI. Das schaffen auch
> die klassischen "dummen" Lösungen völlig problemlos.

Ja, aber wie machen das die "dummen"?  Man würde wie beim Schach eine 
größere Datenbank und Skripts vermuten.
So rein von Parallelverarbeitung profitieren?

Autor: Yalu X. (yalu) (Moderator)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
c-hater schrieb:
> Vermutlich ist schlicht das Vokabular viel zu klein. In 200kB passt
> selbst mit Komprimierung nur schwerlich der Sprachumfang der deutschen
> Umgangssprache.

200kB sollten (komprimiert) für 60.000 bis 80.000 Wörter gut sein. Wenn
darin ein so banales Wort wie "Rasen" fehlt, dann ist die Auswahl der
Wörter ziemlich missglückt.

Vielleicht kann der TE ja mal nachschauen, ob "Rasen" wirklich abgelehnt
wird und uns den Namen dieses seltsamen Rechtschreibtools nennen.

Autor: georg (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Yalu X. schrieb:
> Wenn
> darin ein so banales Wort wie "Rasen" fehlt

Die Tücke des Deutschen, jedenfalls vom Standpunkt eines Computers aus 
gesehen, ist die unbegrenzte Möglichkeit neue zusammengesetzte Worte zu 
bilden, das hört mit dem Donaudampfschiffahrtsgesellschaftskapitän noch 
lange nicht auf. Das Tool könnte zwar Rasen kennen, kann aber mit 
Zusammensetzungen nicht umgehen (und ist auch in dem Fall ziemlich 
wertlos, jedenfalls für Deutsche). Beliebige Zusammensetzungen 
zuzulassen, führt aber auch nicht zum Ziel, sowas wie Rasenflasche 
ergibt halt keinen Sinn.

Deutsche Sprak schwere Sprak.

Georg

Autor: Nano (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Ein gut designtes Wörterbuch müsste die Grundwörter und die üblichen 
Kombinationen aus diesen Grundwörtern kennen.

Eine KI hat hier keine Chance. Es sei denn, man füttert sie mit Daten, 
die von Menschen sind. Wortkombinationen, die von Menschen häufig 
benutzt werden, kann man dann in die Datenbank mit aufnehmen, 
Wortkombinationen, die selten sind, muss man verwerfen bzw. nur die 
Anzahl, wie oft die benutzt wurden zählen. In dem für den Nutzer 
zugänglichen Wörterbuch, darf sie nicht vorkommen.
Für falsch geschriebene Wortkombinationen braucht man dann noch eine 
Ausschlussliste, damit Begriffe wie "Standartnutzer" nicht vorgeschlagen 
werden.

Autor: Nano (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Ergänzung:

Nano schrieb:
> Für falsch geschriebene Wortkombinationen braucht man dann noch eine
> Ausschlussliste, damit Begriffe wie "Standartnutzer" nicht vorgeschlagen
> werden.

Und diese Ausschlussliste müsste manuell von Menschen verwaltet werden.
Denn eine KI kann das nicht erkennen.

Autor: Nasenmäher (Gast)
Datum:
Angehängte Dateien:

Bewertung
0 lesenswert
nicht lesenswert
Yalu X. schrieb:
> Vielleicht kann der TE ja mal nachschauen, ob "Rasen" wirklich abgelehnt
> wird und uns den Namen dieses seltsamen Rechtschreibtools nennen.

Das Hauptwort Rasenmäher wurde nicht gefunden und das Tool bzw. die 
Datei gehört wohl zum Browser. Die Datei habe ich mal nach einer 
Anleitung im Netz in den Untiefen von Windows mit dem Attribut versteckt 
gefunden. In Erinnerung ist mir nur die rel. geringe Dateigröße.

Das Hauptwort Rasen ist bekannt.

Reinhard S. schrieb:
> Bisher hat mir noch kein Offline-Wörterbuch Alternativvorschläge
> gemacht...

Deutsch studiert oder kein Wörterbuch installiert?

Autor: character deuter (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Klingt nach einer Variante des Unixoiden spell, wie 
https://de.wikipedia.org/wiki/GNU_Aspell

das checkt Silben, weniger ganzer Wörter.

Autor: Lukas H. (eelhorsto)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Moin,

also ich habe sowas mal mit der Levenshtein gebaut. Das geht schnell und 
lief bei mir in meiner Anwendung sehr gut.

VG

Autor: georg (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Nano schrieb:
> damit Begriffe wie "Standartnutzer" nicht vorgeschlagen
> werden.

Was hast du gegen den Nutzer einer Standarte?

So eine Standarte mit dem Bundesadler am Auto macht übrigens ziemlich 
Eindruck.

Georg

Autor: Nano (Gast)
Datum:

Bewertung
-1 lesenswert
nicht lesenswert
georg schrieb:
> Nano schrieb:
>> damit Begriffe wie "Standartnutzer" nicht vorgeschlagen
>> werden.
>
> Was hast du gegen den Nutzer einer Standarte?
>
> So eine Standarte mit dem Bundesadler am Auto macht übrigens ziemlich
> Eindruck.
>
> Georg

Kommst du dir nicht peinlich vor? Du hast gar nicht begriffen, was ich 
geschrieben habe.

Autor: Marek N. (bruderm)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Ist dieser Thesaurus eigentlich ein Fleisch- oder Pflanzenfresser 
gewesen?
Youtube-Video "Family Guy - Thesaurus Asaurus - Deutsch"

Autor: Tek (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
georg schrieb:
> Was hast du gegen den Nutzer einer Standarte?

Der würde dann aber Standartennutzer heißen...

Um was für ein Wörterbuch handelt es sich denn überhaupt, du hast bisher 
weder den verwendeten Browser noch ein ggf. zusätzlich installiertes 
Wörterbuch verraten.

Autor: Oje (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Es ist ziemlich einfach: es wird ein simples Bloom-Filter eingesetzt um 
fehlerhafte Worte zu identifizieren. Die Korrekturvorschlaege mittels 
Soundex-Algorithmus.

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.