Guten Abend zusammen, mir ist keine bessere Überschrift eingefallen, daher hier eine Beschreibung was ich vorhabe: Für ein Projekt meiner Kinder möchte ich eine "Lichttafel" bauen, die beim Nennen eines Wortes (wenn sie z.B. eine Farbe nennen oder einen Gegenstand) dann jeweils die entsprechende Lichttafel aktiviert. Das einzige was hierbei für mich noch nicht so einfach zu realisieren scheint ist die "Wortaktivierung". Einfache Sprachaktivierung die bei jedem Mucks aktiviert wird ist ja in vielen Kinderspielzeugen, aber wie kann ich das ganze so umsetzen, dass ein ganz spezifisches Wort die alleinige aktivierung auslöst? Danke schon einmal für die Gedankenanstöße.
Das braucht schon einiges an Rechenleistung. Schau dir Jasper auf dem Raspberry Pi an.
Nils S. schrieb: > Einfache Sprachaktivierung die bei jedem Mucks aktiviert wird ist ja in > vielen Kinderspielzeugen, aber wie kann ich das ganze so umsetzen, dass > ein ganz spezifisches Wort die alleinige aktivierung auslöst? Da brauchst du schon einiges an Rechenleistung. Und natürlich: ein Programm, was diese auch sinnvoll nutzen kann. Aber selbst, wenn Rechenleistung und Programm vorhanden sind: ohne Training wird es meist nicht abgehen. Und das kann auch fehlschlagen. Mit norddeutschen Blagen trainiert und dann Kinderbesuch aus dem Ländle... Da ist Kindergejammer vorprogrammiert.
Es gab bei elv mal was kleineres, günstigeres um wenige Begriffe zu erkennen, im Moment sehe ich dort nur das: https://de.elv.com/p/viccontrol-go-kit-offline-sprachsteuerung-P251951/ https://de.elv.com/p/viccontrol-go-stamp-offline-sprachsteuerung-P251952
Nils S. schrieb: > aber wie kann ich das ganze so umsetzen, dass > ein ganz spezifisches Wort die alleinige aktivierung auslöst? Sieh Dir an, wie Alexa, Siri und das ganze Zeug funktionieren. Das einzige, was diese Dinger machen, ist die Aktivierungsphrase lokal auszuwerten, der Rest läuft durch ein Rechenzentrum. Sprecherunabhängige Spracherkennung braucht Rechenleistung.
Nils S. schrieb: > aber wie kann ich das ganze so umsetzen, dass ein ganz spezifisches > Wort die alleinige aktivierung auslöst? Nur für genau 1 Menschen? Oder so, dass das Ganze auch unabhängig vom Sprecher (Alter, Geschlecht, Nationalität, ...) funktioniert?
Whisper auf einem Raspberry könnte das tun: https://community.hiveeyes.org/t/openai-whisper-auf-einem-raspberrypi-5-on-device/5174
Ich danke Euch allen für den Input! Interessant und schade, dass es so einen Aufwand bedarf - aber irgendwie habe ich damit gerechnet :-D Die Idee wurde nun abgeändert und etwas klassischer mit Bedientasten gehalten, statt Sprache - man kann halt nicht alles haben.
gravity voice recognition module - 121 Ready-to-Use Words - The self-learning function is user-friendly, allowing users to add 17 customized command words. https://www.dfrobot.com/product-2665.html https://www.youtube.com/watch?v=4UTzerFjycg
Nils S. schrieb: > man kann halt nicht alles haben. Ist sicher die bessere Variante. Das geht grundsätzlich mit DSPs, aber der Programmieraufwand ist auch schon beachtlich.
Harald K. schrieb: > Sprecherunabhängige Spracherkennung braucht Rechenleistung. Na ja, das ging schon in den 1990ern realtiv brauchbar, zumindest für einen reduzierten Wortschatz. Die Nummer mit dem "wir brauchen den dicken Server und schicken darum das Signal übers Internet" hat mehr damit zu tun, dass man Daten sammeln will.
Guido K. schrieb: > Harald K. schrieb: >> Sprecherunabhängige Spracherkennung braucht Rechenleistung. > > Na ja, das ging schon in den 1990ern realtiv brauchbar, zumindest für > einen reduzierten Wortschatz. Nicht wirklich. Ja, zehn hochdeutsche Worte von einem männlichen Sprecher konnte man schon ziemlich sicher unterscheiden. Aber sobald verschiedene Geschlechter, Kinder oder Dialekte in's Spiel kamen oder gar all dies in Kombination, war sehr schnell Schluß mit der Herrlichkeit. Sprich: In der Praxis unbrauchbar. Genau deswegen hat es sich eben auch nicht durchgesetzt.
Also mein hauptsächlicher Punkt ist, dass einfache Spracherkennung, also mit begrenztem Wortschatz, schon ziemlich lange funktioniert und man sich dann mal anschauen sollte, wie im Laufe der Jahre die Rechenpower gestiegen ist. Ein Raspberry Pi 3 entspricht etwa einer Cray Y-MP1 und ist auch schon relativ alt.
Guido K. schrieb: > Also mein hauptsächlicher Punkt ist, dass einfache Spracherkennung, also > mit begrenztem Wortschatz, schon ziemlich lange funktioniert Beweist jedes sprachgesteuerte Telephonmenüsystem, das oft schon an so einfachen Dingen wie "ja" oder "nein" scheitert.
Harald K. schrieb: > Guido K. schrieb: >> Also mein hauptsächlicher Punkt ist, dass einfache Spracherkennung, also >> mit begrenztem Wortschatz, schon ziemlich lange funktioniert > > Beweist jedes sprachgesteuerte Telephonmenüsystem, das oft schon an so > einfachen Dingen wie "ja" oder "nein" scheitert. Und das sogar mit der heute verfügbaren Rechenpower im Hintergrund...
Wenn es um Prozessoren/Chips geht, die das können, fällt mir eigentlich nur XMOS ein: https://www.xmos.com/xcore-voice/ Die können neben der Wakeword-Erkennung auch noch munteres Beamforming für Mikrofon-Arrays
Harald K. schrieb: > Beweist jedes sprachgesteuerte Telephonmenüsystem, das oft schon an so > einfachen Dingen wie "ja" oder "nein" scheitert. Das ist m.E. oft ein Userproblem, weil der in die Ansage quatscht oder nicht den Signalton abwartet. Einfache Telefonmenüs mit ja/nein/0-9 und auch stark unterschiedlichen Begriffen wie Kundenservice/Retoure funktionieren nach meiner Erfahrung seit mindestens 20 Jahren problemlos, und auch die Aktivierung eines Windows via Telefon (bei der man lange Zahenfolgen, ja, weiter und wiederholen sagen kann/muss) funktioniert seit XP bis Windows 7 bei mir ohne Beanstandungen, schnell und problemlos. Kürzlich hab ich noch ein XP so aktiviert, es geht immer noch. Ein Spracherkennungssystem, das ohne Wakeword 10 verschiedene sprecherunabhängige Worte in Digitalsignale umwandeln konnte hatte ich auch schon vor locker 15 Jahren mal ausprobiert, aber das gibt's leider nicht mehr. Beim teachen musste man jedes Wort etliche Male ansagen, mit verschiedenen Abständen, Lautstärken und möglichst auch Leuten, und es hat auch oft gemeckert das dieses Wort einem anderen zu ähnlich war und nicht funktionieren wird. Wenn man seine Worte aber durch den Prozess durch hatte, funktionierte es recht gut, aber im Wohnraum nicht geeignet, weil auch in normalen Gesprächen oder aus dem TV/Radio die entsprechenden Worte erkannt wurden. Vorher Alexa zu sagen (das war lange vor Alexa) war mir aber zu albern für eine Uhr, ich hab dann eine IR-Fernbedienung benutzt, denn auch einen ESP gab's noch nicht. Das Gravity-Modul scheint ähnlich zu sein, aber die ganzen DIY-Begriffe die eingebaut sind, sind vollkommmen sinnlos.
:
Bearbeitet durch User
Man könnte auch eine Vorhandene Sprachanwendung wie z.B. ein Handy, Tablet oder Alexa damit verknüpfen. So könnte man sich um das wichtige Kümmern.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.