Forum: Mikrocontroller und Digitale Elektronik Spracherkennungsmodule


von M. D. (martin_d57)


Lesenswert?

Hallo alle zusammen!

Da ich mein uC-Board gerne um eine Sprachsteuerung erweitern würde, 
bräuchte ich ein Schaltung bzw. Hardwaremodul, das in der Lage ist, 
Sprachbefehle wahrzunehmen, diese auszuwerten und resultierend als 
Befehle an den uC weiterleitet. Die Variante eine Kombination von 
Spracherkennungssoftware (wie bspw. Dragon NaturallySpeaking) und einem 
Embedded PC habe ich an der Etappe verworfen.

Nachdem ich ein paar Tage mit Einarbeitung in das Thema verbracht habe, 
konnte ich gewisse Erkenntnisse ziehen, vor allen von den ganzen 
Forenbeiträgen, die die gesammelte Erfahrung der Poster widerspigeln. 
Lösungen von "fertigem Spracherkennungsmodul bei Conrad" (gibt es leider 
nicht mehr zu kaufen), über EasyVR 
(http://www.veear.eu/products/easyvr/) und SmartVR 
(http://www.veear.eu/products/smartvr/) bis hin zur der ganz schlichten 
Variante, einfach einen spracherkennungsfähigen Chip der Firma Sensory 
(http://www.sensoryinc.com/) zu erwirtschafen. Mir persönlich gefiele 
letztere Variante am besten, da ich mich im solchen Falle selber um 
alles kümmern muss und mich mit dem Thema ausführlicher 
auseinandersetzen werde, als wenn ich eine fertige Schaltung 
erwirtschafte. Probelmatisch dabei erwies sich leider der Preis. Die ICs 
der Firma Sensory kosten zwar was, verleihen aber einen guten Eindruck, 
was die Qualität betrifft. Richtig teuer wird es aber erst beim Erwerben 
des Zubehörs fürs Programmieren - die Preise der benötigten 
Bibliotheken, der Firmware, des Compilers (Sensory verweist auf den 
Phyton-Compiler) und der restlichen Peripherie. Diese liegen im 
vierstelligen Bereich, was schon nicht jeden Manns Tasche bemmesen sind.

Demzufolge wollte ich mal die Frage in die Runde schmeißen, ob jemand 
schon selber Erfahrung auf dem Gebiet hat, bspw. mit den ICs von Sensory 
gearbeitet, aber einen anderen Compiler benutzt hat und ob jemand mir 
gegebenenfalls was anderes empfehlen könnte. Wie ich bereits erwähnt 
habe, tendiere ich zu einer Variante, bestehend lediglich aus einem Chip 
(IC), um bei der Umsetzung möglichst viel dabei lernen zu können. 
Nichtsdestotrotz würde ich mich ebenfalls darüber freuen, wenn ihr 
Vorschläge bezüglich fertiger Spracherkennungs-Kits habt.

von Viktor N. (Gast)


Lesenswert?

Ich hatte kuerzlich mal eins zur Ansicht. Hab leider vergessen welches. 
Das ist aber schon bei einem groovie "Ey Mann, haddu..." ausgestiegen. 
Die muessen also noch was nachbessern.

von M. D. (martin_d57)


Lesenswert?

Ja, die meisten auf den Markt angebotenen Lösungen sind leider nicht so 
ausgereift, wie man sie gerne haben würde. Es scheint, dass die 
Auswertung menschlicher Sprache doch ziemlich kniffelig ist, selbst für 
Leute, die sich mit dem Thema beruflich befassen.

Andere Meinungen zu meinem ersten Beitrag?

von Harald (Gast)


Lesenswert?

Hatte mal vor vielen Jahren ein Demokit von Sensory. Obwohl die damit 
geworben haben, dass kein Sprachtraining erforderlich sei, konnte die 
Kiste mit der vorinstallierten Demo-SW nicht einmal zwischen 
british-english und "Texanisch". Nur wenn man versuchte, einen Texaner 
zu imitieren, gelang die Erkennung des Kommandos "place call" mehr 
schlecht als recht. Und auch nur dann, wenn man sich sehr genau auf die 
Sache konzentrierte. Tja, mal wieder auf eine gut gemachte 
Marketing-Masche aus den USA reingefallen...

Schau Dir mal die Sachen von der Firma voiceinterconnect.de an, die 
bieten auch ein Kit an. Im Kern sitzt dann Technologie von Nuance, das 
funktioniert dann eben mindestens so gut wie die Freisprecheinrichtungen 
der Marktführer.

von Harald (Gast)


Lesenswert?

Habe gerade deinen Beitrag noch einmal durchgelesen. Also wenn Du 
preislich schon ein Problem mit dem Sensory-Zeug hast, dann brauchst Du 
an der Baustelle nicht mehr weiterarbeiten.

Zuverlässige Module werden meiner Einschätzung nach mindestens 
dreistellig im Preis liegen, Kosteneinsparung durch Eigenentwicklung mag 
möglich sein, fragt sich nur mit welchem Ergebnis. Spracherkennung soll 
ja auch zuverlässig funktionieren, oder? In dem Nuance-Ansatz stecken 
mittlerweile soviel Mannjahre Entwicklung, das muss über Lizenzen 
natürlich wieder reinkommen

von M. D. (martin_d57)


Lesenswert?

Harald schrieb:
> Habe gerade deinen Beitrag noch einmal durchgelesen. Also wenn Du
> preislich schon ein Problem mit dem Sensory-Zeug hast, dann brauchst Du
> an der Baustelle nicht mehr weiterarbeiten.
>
> Zuverlässige Module werden meiner Einschätzung nach mindestens
> dreistellig im Preis liegen, Kosteneinsparung durch Eigenentwicklung mag
> möglich sein, fragt sich nur mit welchem Ergebnis. Spracherkennung soll
> ja auch zuverlässig funktionieren, oder? In dem Nuance-Ansatz stecken
> mittlerweile soviel Mannjahre Entwicklung, das muss über Lizenzen
> natürlich wieder reinkommen

Erstmals bedanke ich mich für deine Antwort.

Ja, ich muss zugeben, ich war ein wenig geschockt, als ich den Preis von 
der ganzen Hardware+Softwarepalette von Sensory im Vergleich zu anderen 
low-end-Produkten gesetzt habe, aber wie du bereits selber schriebst, 
müssen die Leute ihre Entwicklungskosten irgendwhor herausholen. Es mag 
sein, dass sie seitens der PR protzen, jedensfalls scheinen sie doch 
ziemlich coole Produkte anzubieten. Gesten habe ich von ihrer 4,500 Euro 
Software gelesen, des "T2SI", was buchstäblich 
Text-to-Speaker-independent bedutet. Man braucht demnach lediglich einen 
definierten Text einzugeben und die Software konvertiert diesen in 
Spracherkennungsmuster, welche auf den Chip übertragen werden können. 
Zudem kann man selber Wörter bezüglich der Aussprache so modifizieren, 
dass Befehle, sagen wir mal auch aus Regionalgründen, sicherlich vom 
Produkt erkannt werden können.

Was ich allerdings immer noch nichts herausfunden habe, ist wie man 
Sprachbefehle hinterlegt, falls man doch auf die erwähnte Softwarelösung 
verzichten würde. Immerhin sollen auch speaker dependent Erkennung zur 
Verfügung stehen, was die Aufnahme einer bestimmte Stimme erfordert 
(nehme ich an). Dazu habe ich auch keine Stelle in der Beschreibung 
gefunden, die davon was berichtet. Wie hast du es gemacht, als du damit 
Berührpunkte hattest.

Sensory gibt auch damit an, dass ihre Spracherkennung in ca. 50 Sprachen 
funktioniert, drei davon nur Deutsch :D Also einmal Deutsch-Deutsch und 
hinzukommend Schweizer Deutsch und Österreicher Deutsch. Also wundert es 
mich, dass du solche Probleme hatest. Entweder hat sich seitdem einiges 
geändert, oder es steckt wirklich nichts dahinter, allerdings bezweifle 
ich letztere.

von Harald A. (embedded)


Lesenswert?

Ich denke, seitdem hat sich einiges geändert. Ich habe mir die Seite 
auch noch einmal angeschaut, da ist wirklich vieles hinzugekommen. 
Trotzdem würde ich dir voiceinterconnect.de ans Herz legen, da bekommst 
Du deutschsprachigen Support. Und nach den Beschreibungen, die ich 
gesehen habe, ist das Modul relativ leicht anzusteuern.

von M. D. (martin_d57)


Lesenswert?

Harald A. schrieb:
> Trotzdem würde ich dir voiceinterconnect.de ans Herz legen, da bekommst
> Du deutschsprachigen Support.

Ja, bezüglich des deutschen Supports scheint diese definitiv keine 
schlechte Variante zu sein! Ich weiß zwar noch nicht wie die Preise da 
sind, aber darüber werde ich mich anschließend erkundigen.

Was die Chips von Sensory angeht, bin ich meiner Meinung nach letzte 
Woche auf einen guten Fund gestoßen. Zwar ist es kein Produkt direkt von 
der Firma, es handelt sich aber um ein Entwicklungsboard/-kit von der 
Firma VeeaR. Die bieten die Produkte EasyVR und SmartVR. Aufbauend auf 
die RSC-4128 Chip von Sensory, können beide Module das gleiche, 
allerdings mit dem Vorteil, dass die auch von deutschen Händlern 
bestellbar sind (http://tigal.de/products.asp?src=smartvr). Während das 
EasyVR-Board lediglich aus einer Platine besteht, die sich über UART mit 
einem uC verbinden lässt, kann das SmartVR-Modul mit einer zusätzlichen 
Experimentierplatine gekauft werden, worauf Taster, LEDs, USB-Anschluss 
und Spannungsversorgung implementier sind. Das Highlight ist die 
T2SI-Software, die mitgeliefert wird. Zwar ist es nur die Lite-Verison, 
aber damit kann man trotzdem viel anfangen, zumal die SI-Sprachbefehle 
nicht vorgefertigt sind, sondern sich selber vom Benutzer definieren 
lassen. Anderer Vorteil ist das Entfallen der restlichen Peripherie 
(In-Circuit Emulator, Phyton C Compiler und ChipProg+ Programmer 
http://www.phyton.com/htdocs/tools_se/tools_se.shtml), für die man auch 
ein paar hundert Euro zulegen müsste. Das SmartVR-DK PRO kann man für 
den bescheidenen Preis von 199,00 € kriegen. Zum Experimentieren und zum 
Sammeln erster Erfahrungen erweist sich diese Variante als bisher beste 
und billigste im Vergleich zu anderen Hardwarelösungen.

von Purzel H. (hacky)


Lesenswert?

Die 199 sind das Guenstigste von Allem ... Ein Devkit bedeutet 
ueblicherweise du ballerst noch einen Monat mit spielen raus, um nachher 
deine Anforderungen zu kennen. Wenn da ueber Alles, dh bis du was 
Brauchbares und Laufendes hast, das Hundertfache nur reicht....

von Arc N. (arc)


Lesenswert?

Nicht wirklich günstiger... Dafür sind die normalen Entwicklungstools 
kostenlos bzw. sehr günstig...
dsPIC Speech Recognition Library
http://ww1.microchip.com/downloads/en/DeviceDoc/dsPIC_Speech_Recognition_User_Guide_70140a.pdf

CMU Sphinx bzw. PocketSphinx wären Open Source Lösungen...
http://cmusphinx.sourceforge.net/

von M. D. (martin_d57)


Lesenswert?

Arc Net schrieb:
> dsPIC Speech Recognition Library
> http://ww1.microchip.com/downloads/en/DeviceDoc/ds...

Hier gibt es aber ein entscheidender Nachteil - die Word Library, die 
man für seine Applikation "selber zusammenstellt", kann NUR Wörter aus 
der vordefinierten Master Word Library enthalten. Diese wiederum 
beinhaltet 100 Wörter, die von den Entwicklern für am sinnvollsten 
gehalten wurden. Außerdem kann die verbale Mensch-Maschine-Kommunikation 
nur englischsprachig ralisiert werden (was ich nicht möchte), da in der 
dsPIC30F speech recognition library ausschließlich englische Wörter 
hinterlegt sind.

Siebzehn und Fuenfzehn schrieb:
> Die 199 sind das Guenstigste von Allem ... Ein Devkit bedeutet
> ueblicherweise du ballerst noch einen Monat mit spielen raus, um nachher
> deine Anforderungen zu kennen. Wenn da ueber Alles, dh bis du was
> Brauchbares und Laufendes hast, das Hundertfache nur reicht....

Ich bin mir nicht ganz sicher, dass ich den Sinn deiner Antwort richtig 
zuordnen konnte. Meine Anforderungen kenne ich ganz gut, ob das 
entsprechende Spracherkennungsmodul aber diesen gewachsen ist, kann ich 
erst nach dem "Spielen" feststellen. Deswegen finde ich es besser, an 
erster Insanz weniger Geld auszugeben um simple Experimente 
durchzuführen, die aber immer noch aussagekräftig sind, als direkt ins 
tiefe Wasser zu springen.

von M. D. (martin_d57)


Lesenswert?

Nach langen Überlegungen habe ich mich für die Entwicklungsboards 
vicCONTROL und SmartVR DK Pro entschieden. Damit werde ich erste 
Versuche durchführen, um zu sehen, wie zuverlässig die ganze 
Spracherkennungsgeschichte ist.

von wimma (Gast)


Lesenswert?

hallo,

wie viel kostet bitte das VicControl board? und und gibt es schon 
erkenntnisse?

Danke.

von M. D. (martin_d57)


Lesenswert?

Das vicCONTROL kostet 349,- €. Ich habe es zwar bestellt, warte aber 
immer noch auf die Lieferung. Wenn ich das Board habe und erste Tests 
damit durchgeführt habe, werde ich meine Erkenntnisse hier mitteilen.

von #Neuland (Gast)


Lesenswert?

Hey Martin_d57,

hast du schon was herausgefunden bezüglich des vicControl?
Ich selbst hab auch vor mir ein Sprachmodul zu kaufen und es wäre schön 
wenn du paar Erfahrungen teilst :)

gruß #Neuland

von Abdul K. (ehydra) Benutzerseite


Lesenswert?

Es gab mal jemanden, der hatte bei Jugend forscht etwas 
selbstentwickeltes vorgestellt. Ein paar Wörter konnte er ganz gut 
unterscheiden.

von Stefan H (Gast)


Lesenswert?

Gibt es schon erste Erfahrungen?

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.