Forum: Mikrocontroller und Digitale Elektronik Wortaktivator Mikrofon/Chip


von Nils S. (dasspezielle)


Lesenswert?

Guten Abend zusammen,
mir ist keine bessere Überschrift eingefallen, daher hier eine 
Beschreibung was ich vorhabe:

Für ein Projekt meiner Kinder möchte ich eine "Lichttafel" bauen, die 
beim Nennen eines Wortes (wenn sie z.B. eine Farbe nennen oder einen 
Gegenstand) dann jeweils die entsprechende Lichttafel aktiviert.
Das einzige was hierbei für mich noch nicht so einfach zu realisieren 
scheint ist die "Wortaktivierung".

Einfache Sprachaktivierung die bei jedem Mucks aktiviert wird ist ja in 
vielen Kinderspielzeugen, aber wie kann ich das ganze so umsetzen, dass 
ein ganz spezifisches Wort die alleinige aktivierung auslöst?


Danke schon einmal für die Gedankenanstöße.

von H. H. (hhinz)


Lesenswert?

Das braucht schon einiges an Rechenleistung.

Schau dir Jasper auf dem Raspberry Pi an.

von Ob S. (Firma: 1984now) (observer)


Lesenswert?

Nils S. schrieb:

> Einfache Sprachaktivierung die bei jedem Mucks aktiviert wird ist ja in
> vielen Kinderspielzeugen, aber wie kann ich das ganze so umsetzen, dass
> ein ganz spezifisches Wort die alleinige aktivierung auslöst?

Da brauchst du schon einiges an Rechenleistung. Und natürlich: ein 
Programm, was diese auch sinnvoll nutzen kann.

Aber selbst, wenn Rechenleistung und Programm vorhanden sind: ohne 
Training wird es meist nicht abgehen. Und das kann auch fehlschlagen. 
Mit norddeutschen Blagen trainiert und dann Kinderbesuch aus dem 
Ländle... Da ist Kindergejammer vorprogrammiert.

von Harry R. (harry_r2)


Lesenswert?

Es gab bei elv mal was kleineres, günstigeres um wenige Begriffe zu 
erkennen, im Moment sehe ich dort nur das:

https://de.elv.com/p/viccontrol-go-kit-offline-sprachsteuerung-P251951/

https://de.elv.com/p/viccontrol-go-stamp-offline-sprachsteuerung-P251952

von Harald K. (kirnbichler)


Lesenswert?

Nils S. schrieb:
> aber wie kann ich das ganze so umsetzen, dass
> ein ganz spezifisches Wort die alleinige aktivierung auslöst?

Sieh Dir an, wie Alexa, Siri und das ganze Zeug funktionieren. Das 
einzige, was diese Dinger machen, ist die Aktivierungsphrase lokal 
auszuwerten, der Rest läuft durch ein Rechenzentrum.

Sprecherunabhängige Spracherkennung braucht Rechenleistung.

von Lothar M. (Firma: Titel) (lkmiller) (Moderator) Benutzerseite


Lesenswert?

Nils S. schrieb:
> aber wie kann ich das ganze so umsetzen, dass ein ganz spezifisches
> Wort die alleinige aktivierung auslöst?
Nur für genau 1 Menschen? Oder so, dass das Ganze auch unabhängig vom 
Sprecher (Alter, Geschlecht, Nationalität, ...) funktioniert?

von Oliver S. (phetty)


Lesenswert?


von Nils S. (dasspezielle)


Lesenswert?

Ich danke Euch allen für den Input!
Interessant und schade, dass es so einen Aufwand bedarf - aber irgendwie 
habe ich damit gerechnet :-D
Die Idee wurde nun abgeändert und etwas klassischer mit Bedientasten 
gehalten, statt Sprache - man kann halt nicht alles haben.

von Anton19 (al_spumans)


Lesenswert?

gravity voice recognition module

- 121 Ready-to-Use Words
- The self-learning function is user-friendly, allowing users to add 17 
customized command words.
https://www.dfrobot.com/product-2665.html

https://www.youtube.com/watch?v=4UTzerFjycg

von Frank O. (frank_o)


Lesenswert?

Nils S. schrieb:
> man kann halt nicht alles haben.

Ist sicher die bessere Variante.
Das geht grundsätzlich mit DSPs, aber der Programmieraufwand ist auch 
schon beachtlich.

von Guido K. (Firma: Code Mercenaries GmbH) (thebug)


Lesenswert?

Harald K. schrieb:
> Sprecherunabhängige Spracherkennung braucht Rechenleistung.

Na ja, das ging schon in den 1990ern realtiv brauchbar, zumindest für 
einen reduzierten Wortschatz. Die Nummer mit dem "wir brauchen den 
dicken Server und schicken darum das Signal übers Internet" hat mehr 
damit zu tun, dass man Daten sammeln will.

von Ob S. (Firma: 1984now) (observer)


Lesenswert?

Guido K. schrieb:

> Harald K. schrieb:
>> Sprecherunabhängige Spracherkennung braucht Rechenleistung.
>
> Na ja, das ging schon in den 1990ern realtiv brauchbar, zumindest für
> einen reduzierten Wortschatz.

Nicht wirklich. Ja, zehn hochdeutsche Worte von einem männlichen 
Sprecher konnte man schon ziemlich sicher unterscheiden. Aber sobald 
verschiedene Geschlechter, Kinder oder Dialekte in's Spiel kamen oder 
gar all dies in Kombination, war sehr schnell Schluß mit der 
Herrlichkeit.

Sprich: In der Praxis unbrauchbar. Genau deswegen hat es sich eben auch 
nicht durchgesetzt.

von Guido K. (Firma: Code Mercenaries GmbH) (thebug)


Lesenswert?

Also mein hauptsächlicher Punkt ist, dass einfache Spracherkennung, also 
mit begrenztem Wortschatz, schon ziemlich lange funktioniert und man 
sich dann mal anschauen sollte, wie im Laufe der Jahre die Rechenpower 
gestiegen ist.
Ein Raspberry Pi 3 entspricht etwa einer Cray Y-MP1 und ist auch schon 
relativ alt.

von Harald K. (kirnbichler)


Lesenswert?

Guido K. schrieb:
> Also mein hauptsächlicher Punkt ist, dass einfache Spracherkennung, also
> mit begrenztem Wortschatz, schon ziemlich lange funktioniert

Beweist jedes sprachgesteuerte Telephonmenüsystem, das oft schon an so 
einfachen Dingen wie "ja" oder "nein" scheitert.

von Ob S. (Firma: 1984now) (observer)


Lesenswert?

Harald K. schrieb:

> Guido K. schrieb:
>> Also mein hauptsächlicher Punkt ist, dass einfache Spracherkennung, also
>> mit begrenztem Wortschatz, schon ziemlich lange funktioniert
>
> Beweist jedes sprachgesteuerte Telephonmenüsystem, das oft schon an so
> einfachen Dingen wie "ja" oder "nein" scheitert.

Und das sogar mit der heute verfügbaren Rechenpower im Hintergrund...

von Sebastian R. (sebastian_r569)


Lesenswert?

Wenn es um Prozessoren/Chips geht, die das können, fällt mir eigentlich 
nur XMOS ein:

https://www.xmos.com/xcore-voice/

Die können neben der Wakeword-Erkennung auch noch munteres Beamforming 
für Mikrofon-Arrays

von Jens M. (schuchkleisser)


Lesenswert?

Harald K. schrieb:
> Beweist jedes sprachgesteuerte Telephonmenüsystem, das oft schon an so
> einfachen Dingen wie "ja" oder "nein" scheitert.

Das ist m.E. oft ein Userproblem, weil der in die Ansage quatscht oder 
nicht den Signalton abwartet.
Einfache Telefonmenüs mit ja/nein/0-9 und auch stark unterschiedlichen 
Begriffen wie Kundenservice/Retoure funktionieren nach meiner Erfahrung 
seit mindestens 20 Jahren problemlos, und auch die Aktivierung eines 
Windows via Telefon (bei der man lange Zahenfolgen, ja, weiter und 
wiederholen sagen kann/muss) funktioniert seit XP bis Windows 7 bei mir 
ohne Beanstandungen, schnell und problemlos. Kürzlich hab ich noch ein 
XP so aktiviert, es geht immer noch.

Ein Spracherkennungssystem, das ohne Wakeword 10 verschiedene 
sprecherunabhängige Worte in Digitalsignale umwandeln konnte hatte ich 
auch schon vor locker 15 Jahren mal ausprobiert, aber das gibt's leider 
nicht mehr.
Beim teachen musste man jedes Wort etliche Male ansagen, mit 
verschiedenen Abständen, Lautstärken und möglichst auch Leuten, und es 
hat auch oft gemeckert das dieses Wort einem anderen zu ähnlich war und 
nicht funktionieren wird.
Wenn man seine Worte aber durch den Prozess durch hatte, funktionierte 
es recht gut, aber im Wohnraum nicht geeignet, weil auch in normalen 
Gesprächen oder aus dem TV/Radio die entsprechenden Worte erkannt 
wurden.
Vorher Alexa zu sagen (das war lange vor Alexa) war mir aber zu albern 
für eine Uhr, ich hab dann eine IR-Fernbedienung benutzt, denn auch 
einen ESP gab's noch nicht.

Das Gravity-Modul scheint ähnlich zu sein, aber die ganzen DIY-Begriffe 
die eingebaut sind, sind vollkommmen sinnlos.

: Bearbeitet durch User
von Philipp K. (philipp_k59)


Lesenswert?

Man könnte auch eine Vorhandene Sprachanwendung wie z.B. ein Handy, 
Tablet  oder Alexa damit verknüpfen.

So könnte man sich um das wichtige Kümmern.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.