Forum: PC Hard- und Software Wie funktioniert ein offline-Wörterbuch?


von Nasenmäher (Gast)


Lesenswert?

Hallo,

staune eben mal wieder: Es wird das Wort "Rasenmäher" beanstandet, die 
Vorschläge des Systems sind dann:

Rassenmäher, Rosenmäher, Nasenmäher, Hasenmäher ...

Was für ein grandioser Unsinn !

Hat sich schon mal jemand damit beschäftigt, wie so ein im Hintergrund 
arbeitendes Wörterbuch funktioniert? Werden da nur einzelne Wörter im 
Unverstand zusammengesetzt, denn mit ca. 200 kB ist die Datei auffällig 
klein.

Harald

von Yalu X. (yalu) (Moderator)


Lesenswert?

Da gibt es gute und weniger gute. Das von dir verwendete basiert
offensichtlich auf KI, denn ein strohdummes, das einfach eine
Wörterliste benutzt, würde den Rasenmäher nicht beanstanden und auch
keine solch unsinnigen Alternativvorschläge machen.

von Reinhard S. (rezz)


Lesenswert?

Bisher hat mir noch kein Offline-Wörterbuch Alternativvorschläge 
gemacht...
SCNR.

: Bearbeitet durch User
von c-hater (Gast)


Lesenswert?

Yalu X. schrieb:

> Das von dir verwendete basiert
> offensichtlich auf KI, denn ein strohdummes, das einfach eine
> Wörterliste benutzt, würde den Rasenmäher nicht beanstanden und auch
> keine solch unsinnigen Alternativvorschläge machen.

Wenn nun bei der dummen Lösung in der Wortliste das Wort "Rasen" nicht 
enthalten ist, das Wort "Mäher" aber schon? Dann könnte auch genau sowas 
rauskommen.

Vermutlich ist schlicht das Vokabular viel zu klein. In 200kB passt 
selbst mit Komprimierung nur schwerlich der Sprachumfang der deutschen 
Umgangssprache.

von georg (Gast)


Lesenswert?

Nasenmäher schrieb:
> Rassenmäher, Rosenmäher, Nasenmäher, Hasenmäher

Deswegen heisst es ja derzeit, die KI stünde an der Schwelle zur eigenen 
Kreativität. Auf sowas muss man erst mal kommen - wäre dir das 
eingefallen?

Georg

von c-hater (Gast)


Lesenswert?

georg schrieb:

> Nasenmäher schrieb:
>> Rassenmäher, Rosenmäher, Nasenmäher, Hasenmäher
>
> Deswegen heisst es ja derzeit, die KI stünde an der Schwelle zur eigenen
> Kreativität. Auf sowas muss man erst mal kommen - wäre dir das
> eingefallen?

Um auf solche Ideen zu kommen, braucht man keine KI. Das schaffen auch 
die klassischen "dummen" Lösungen völlig problemlos.

Auslöser ist immer, wenn ein Wort nicht im Vokabular ist. Ob dann eine 
KI oder eine manuell programmierte "Ähnlichkeitssuche" anspringt, spielt 
eigentlich überhaupt keine Rolle.

von rbx (Gast)


Lesenswert?

c-hater schrieb:
> Um auf solche Ideen zu kommen, braucht man keine KI. Das schaffen auch
> die klassischen "dummen" Lösungen völlig problemlos.

Ja, aber wie machen das die "dummen"?  Man würde wie beim Schach eine 
größere Datenbank und Skripts vermuten.
So rein von Parallelverarbeitung profitieren?

von Yalu X. (yalu) (Moderator)


Lesenswert?

c-hater schrieb:
> Vermutlich ist schlicht das Vokabular viel zu klein. In 200kB passt
> selbst mit Komprimierung nur schwerlich der Sprachumfang der deutschen
> Umgangssprache.

200kB sollten (komprimiert) für 60.000 bis 80.000 Wörter gut sein. Wenn
darin ein so banales Wort wie "Rasen" fehlt, dann ist die Auswahl der
Wörter ziemlich missglückt.

Vielleicht kann der TE ja mal nachschauen, ob "Rasen" wirklich abgelehnt
wird und uns den Namen dieses seltsamen Rechtschreibtools nennen.

von georg (Gast)


Lesenswert?

Yalu X. schrieb:
> Wenn
> darin ein so banales Wort wie "Rasen" fehlt

Die Tücke des Deutschen, jedenfalls vom Standpunkt eines Computers aus 
gesehen, ist die unbegrenzte Möglichkeit neue zusammengesetzte Worte zu 
bilden, das hört mit dem Donaudampfschiffahrtsgesellschaftskapitän noch 
lange nicht auf. Das Tool könnte zwar Rasen kennen, kann aber mit 
Zusammensetzungen nicht umgehen (und ist auch in dem Fall ziemlich 
wertlos, jedenfalls für Deutsche). Beliebige Zusammensetzungen 
zuzulassen, führt aber auch nicht zum Ziel, sowas wie Rasenflasche 
ergibt halt keinen Sinn.

Deutsche Sprak schwere Sprak.

Georg

von Nano (Gast)


Lesenswert?

Ein gut designtes Wörterbuch müsste die Grundwörter und die üblichen 
Kombinationen aus diesen Grundwörtern kennen.

Eine KI hat hier keine Chance. Es sei denn, man füttert sie mit Daten, 
die von Menschen sind. Wortkombinationen, die von Menschen häufig 
benutzt werden, kann man dann in die Datenbank mit aufnehmen, 
Wortkombinationen, die selten sind, muss man verwerfen bzw. nur die 
Anzahl, wie oft die benutzt wurden zählen. In dem für den Nutzer 
zugänglichen Wörterbuch, darf sie nicht vorkommen.
Für falsch geschriebene Wortkombinationen braucht man dann noch eine 
Ausschlussliste, damit Begriffe wie "Standartnutzer" nicht vorgeschlagen 
werden.

von Nano (Gast)


Lesenswert?

Ergänzung:

Nano schrieb:
> Für falsch geschriebene Wortkombinationen braucht man dann noch eine
> Ausschlussliste, damit Begriffe wie "Standartnutzer" nicht vorgeschlagen
> werden.

Und diese Ausschlussliste müsste manuell von Menschen verwaltet werden.
Denn eine KI kann das nicht erkennen.

von Nasenmäher (Gast)


Angehängte Dateien:

Lesenswert?

Yalu X. schrieb:
> Vielleicht kann der TE ja mal nachschauen, ob "Rasen" wirklich abgelehnt
> wird und uns den Namen dieses seltsamen Rechtschreibtools nennen.

Das Hauptwort Rasenmäher wurde nicht gefunden und das Tool bzw. die 
Datei gehört wohl zum Browser. Die Datei habe ich mal nach einer 
Anleitung im Netz in den Untiefen von Windows mit dem Attribut versteckt 
gefunden. In Erinnerung ist mir nur die rel. geringe Dateigröße.

Das Hauptwort Rasen ist bekannt.

Reinhard S. schrieb:
> Bisher hat mir noch kein Offline-Wörterbuch Alternativvorschläge
> gemacht...

Deutsch studiert oder kein Wörterbuch installiert?

von character deuter (Gast)


Lesenswert?

Klingt nach einer Variante des Unixoiden spell, wie 
https://de.wikipedia.org/wiki/GNU_Aspell

das checkt Silben, weniger ganzer Wörter.

von Lukas H. (eelhorsto)


Lesenswert?

Moin,

also ich habe sowas mal mit der Levenshtein gebaut. Das geht schnell und 
lief bei mir in meiner Anwendung sehr gut.

VG

von georg (Gast)


Lesenswert?

Nano schrieb:
> damit Begriffe wie "Standartnutzer" nicht vorgeschlagen
> werden.

Was hast du gegen den Nutzer einer Standarte?

So eine Standarte mit dem Bundesadler am Auto macht übrigens ziemlich 
Eindruck.

Georg

von Nano (Gast)


Lesenswert?

georg schrieb:
> Nano schrieb:
>> damit Begriffe wie "Standartnutzer" nicht vorgeschlagen
>> werden.
>
> Was hast du gegen den Nutzer einer Standarte?
>
> So eine Standarte mit dem Bundesadler am Auto macht übrigens ziemlich
> Eindruck.
>
> Georg

Kommst du dir nicht peinlich vor? Du hast gar nicht begriffen, was ich 
geschrieben habe.

von Marek N. (Gast)


Lesenswert?

Ist dieser Thesaurus eigentlich ein Fleisch- oder Pflanzenfresser 
gewesen?
https://youtu.be/UZLwOlPWiGM

von Tek (Gast)


Lesenswert?

georg schrieb:
> Was hast du gegen den Nutzer einer Standarte?

Der würde dann aber Standartennutzer heißen...

Um was für ein Wörterbuch handelt es sich denn überhaupt, du hast bisher 
weder den verwendeten Browser noch ein ggf. zusätzlich installiertes 
Wörterbuch verraten.

von Oje (Gast)


Lesenswert?

Es ist ziemlich einfach: es wird ein simples Bloom-Filter eingesetzt um 
fehlerhafte Worte zu identifizieren. Die Korrekturvorschlaege mittels 
Soundex-Algorithmus.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.