mikrocontroller.net

Forum: Mikrocontroller und Digitale Elektronik MATRIX Voice: Open Source Spracherkennungsplattform


Autor: Marco Genise (kaffeedoktor)
Datum:
Angehängte Dateien:

Bewertung
4 lesenswert
nicht lesenswert

MATRIX Voice ist eine Open-Source Spracherkennungsplattform, bestehend aus einem kreisrunden Entwicklungsboard mit sieben MEMS-Mikrofonen und zugehöriger Software.

Auf der Hardwareseite bietet die Plattform sieben im Kreis angeordnete MEMS-Mikrofone (MP34DB02), die von einem Xilinx Spartan6 FPGA (XC6SLX4) angesteuert werden. Diesem stehen 64 Mbit SDRAM und 64 Mbit Flash zur Verfügung. 18 RGBW-LEDs und vor allem die 64 GPIO-Pins erlauben eigene Erweiterungen.

Das Entwicklungsboard gibt es in zwei Ausführungen: als Erweiterungsplatine für den Raspberry Pi oder als Standalone-Version mit einem zusätzlichen ESP32. Letztere bietet dann zusätzlich Wifi nach 802.11bgn und Bluetooth 4.0 LE.

Die zugehörige Software bildet einen vollständigen Software-Stack um mit Python oder JavaScript eigene Anwendungen zu entwickeln. So gibt es zum Beispiel den Zugriff auf Alexa Voice Services als Demo-Anwendung. Da alle Quellen der Software offen liegen steht auch dem tieferen Einstieg in das System nichts im Wege.


: Bearbeitet durch Admin
Autor: Paul H. (powl)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Vielleicht eine interessante Alternative zu Cloudabhängigen Services wie 
Amazon Alexa und um sich seinen ganz eigenen Jarvis zu bauen!

Aber ist das Ding dann auch für andere Sprachen außer Englisch geeignet?

Autor: Andreas Schwarz (andreas) (Admin) Benutzerseite Flattr this
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Die Hardware macht an sich keine Spracherkennung, dazu brauchst du 
entweder einen Cloud-Service oder einen eigenen Rechner (z.B. RasPi). 
Alexa Voice Service kann auch Deutsch. Für PocketSphinx als 
Offline-Spracherkenner gibt es anscheinend auch ein deutsches Modell, 
aber daraus etwas funktionierendes zu basteln wird wohl recht aufwendig.

: Bearbeitet durch Admin
Autor: Bernd K. (prof7bit)
Datum:

Bewertung
-1 lesenswert
nicht lesenswert
Andreas S. schrieb:
> Die Hardware macht an sich keine Spracherkennung,

Was macht sie dann? Schön aussehen und blinken?

Autor: Crazy H. (crazy_h)
Datum:

Bewertung
-1 lesenswert
nicht lesenswert
Für was 7 Mikrofone? Außer man will ne Akustikkamera bauen.

Autor: Sven D. (sven_la)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Du kannst dem Ding Fragen stellen worauf die Antwort z.B. davon abhängt 
wo Du stehst.

Autor: S. R. (svenska)
Datum:

Bewertung
3 lesenswert
nicht lesenswert
Crazy H. schrieb:
> Für was 7 Mikrofone? Außer man will ne Akustikkamera bauen.

Bessere Unterdrückung von Störgeräuschen.

Autor: Ratloser Interessent (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Preis?
Verfügbarkeit?
Nötiges Zubehör?

Autor: Timo (Gast)
Datum:

Bewertung
2 lesenswert
nicht lesenswert
Crazy H. schrieb:
> Für was 7 Mikrofone?

Deren eigene Aussagen:

- Far-field Voice Capture
- Beamforming
- Acoustic Source Location
- Noise Suppression
- De-reverbation
- Acoustic Echo Cancelation

Grundsätzlich ist es mit einem Mikrofon schwieriger, unterschiedliche 
Geräuschquellen zu trennen. Mit mehren Mikrofonen lässt sich da mit 
digitaler Signalverarbeitung vieles machen. Wenn die dafür gute 
"Software" für haben wäre das schon sehr interessant.

Was ich mich dazu frage: Wie sieht es mit Gehäusen aus? Das wird die 
Charakteristik der Mikrofone wahrscheinlich ändern. Dann könnte die 
Anpassung schwierig werden...

Autor: min (Gast)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Ich stelle mir gerade vor, wie das sukzessive in Zügen oder überhaupt im 
gesamten öffentlichen Raum verbaut wird, um zusammen mit den 
Überwachungs-Kamerafilmen eine perfekte Orwell'sche Überwachungscloud zu 
bauen, in der man jedes Gespräch gezielt belauschen kann. Im 
flächendeckenden Wlanfeld kann man dann jede Körperbewegung detektieren. 
Die Handies machen auch noch mit. Alles hängt am Internet. Die stetig 
ansteigende Wlandosis (auf verschiedenen Frequenzen) in dieser Cloud von 
IoT's wird aber vermutlich rechtzeitig Bürgers Gehirne kochen, dann 
merken wir nichts mehr von unserem Glück ;-) und die 
Gesundheits-Krebsindustrie freut sich auch.

Auf jedem Fall kann man mit diesem "Matrix-Ding" interessante Sachen 
machen auch ohne Überwachung. Alles hat halt zwei Seiten...

Aber vermutlich wird sich die Menschheit doch in/mit diesem Orwellschen 
Hyper(t)raum-Dingen versklaven lassen. Oh das blinkt so schön...

Autor: Oliver Stellebaum (phetty)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Wozu aufwändig das öffentlich gesprochene Wort abhören wenn jeder Idiot 
alles auf Facebook teilen will. Da hat man es sofort schriftlich und 
auch noch den Namen dazu.

Autor: min (Gast)
Datum:

Bewertung
-1 lesenswert
nicht lesenswert
wenn man schon alles mitteilen und messen muss, dann wenistens mit mehr 
Licht (Laser, IR, Glasfaser, etc.) zur Datenübertragung in die 
Internetcloud und weniger Wlan. Sonst wird es irgendwann kochend 
ungesund für Mensch und Pflanzen. Das beweisen diverse Studien. Wer 
alles über das Internet kontrollieren will, läuft allerdings auch in 
Gefahr selbst (destruktiv) kontrolliert zu werden. Man muss sich nur 
vorstellen, dass Auto oder Heizung
über das Internet ansprechbar und damit auch hackbar sind. Oder auch 
dass das gesprochene Wort in der Cloud (hackbar) rumschwebt, 
gespeichert, vertextet, semantisch analysiert, zusammengeführt mit den 
anderen Daten der digitalen Personalakte...zu Marketingzwecken, 
etc..verkauft wird...
Oder dass Monate an gesprochenen Worten unzähliger Menschen, zusammen 
mit den zugehörigen Kamerashots, einfach so auf einem sehr leicht 
hackbaren Raspberry Pi mit Cloudanbindung verweilen? Die Cloud, wie auch 
What's ape melden dann sowieso alles an das Gesichtsbuch und verknüpfen 
die Daten.

Autor: FPGA_Noob (Gast)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Ich find es schade, dass nirgends der VHDL (oder Verilog) Code 
veröffentlicht worden ist, gerade der würde mich interessieren.

Autor: Dennis X. (debegr92)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Ratloser Interessent schrieb:
> Preis?
> Verfügbarkeit?

41 USD + 41 USD (!!!) Shipping. Egal wohin, sogar innerhalb US.

Autor: FPGA_Noob (Gast)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Nope, gab ein Update (schon vor ein paar Tagen):

Note on Shipping Fees

We are happy to announce that our amazing logistics team was able to 
secure lower shipping fees for international orders. From $41 to now, 
$15 for shipment of single unit perks, and $24 for perks containing 
kits.  If you are an international buyer of MATRIX Voice, we will refund 
the variance of $26 ($41-$15) you had already paid for shipping.  Our 
goal is to provide the best value and we are constantly pushing the 
boundaries to make that happen!

Team MATRIX

Autor: Dennis X. (debegr92)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Warum kann ich jetzt 7 Minuten später nicht mehr editieren?

FPGA_Noob schrieb:
> Nope, gab ein Update (schon vor ein paar Tagen):

Bin halt nach der Indigogo Seite gegangen, da war es gestern noch so.

Aber die FPGA Sachen scheinen tatsächlich von "OpenSource" 
ausgeschlossen zu sein ?!

Autor: Timo (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Dennis X. schrieb:
> Aber die FPGA Sachen scheinen tatsächlich von "OpenSource"
> ausgeschlossen zu sein ?!

Das wäre wirklich sehr schade.

Ich hab aber möglicherweise was gefunden.

Auf github gibt es scheinbar noch keine Quellen für den matrix-voice. 
Aber deren Produkt Matrix-creator scheint ähnlich zu sein. 
Möglicherweise der Audio/FPGA Teil identisch? nur den Rest(ZigBee, MCU, 
..) weggelassen.

Für den Matrix-creator scheinen dies die FPGA Quellen zu sein:

https://github.com/matrix-io/matrix-creator-fpga

Autor: FPGA_Noob (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Danke, hatte ich doch total übersehen.

Autor: Mark Brandis (markbrandis)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
S. R. schrieb:
> Crazy H. schrieb:
>> Für was 7 Mikrofone? Außer man will ne Akustikkamera bauen.
>
> Bessere Unterdrückung von Störgeräuschen.

Ja schon, aber müssten dafür die Mikrofone nicht sinnvollerweise etwas 
weiter auseinander sein?

Autor: S. R. (svenska)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Zum einen haben die Mikrofone sicherlich eine (schwache) 
Richtcharakteristik, zum anderen hast du 7 Stück davon und nicht nur 
zwei wie am Kopf.

Das sollte das mehr als genug ausgleichen.

Autor: Andreas Schwarz (andreas) (Admin) Benutzerseite Flattr this
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Die Mikrofone sind omnidirektional. Es gibt zwar mittlerweile auch 
MEMS-Mikrofone mit Richtcharakteristik, wenn man aber sowieso 
Beamforming machen möchte bringt das nichts, man hat nur einen höheren 
Rauschpegel, und der Toleranzbereich der Mikrofonempfindlichkeit ist 
größer. Am besten nimmt man omnidirektionale Mikrofone und stellt die 
Richtcharakteristik durch entsprechende Anordnung der Mikrofone und 
Beamforming her.

Autor: F. Fo (foldi)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Bemerkenswert finde ich, dass fast 24.500 Dollar zusammen gekommen sind 
und das von "nur" 264 Unterstützern. Das sind fast 93 Dollar pro Kopf.
Sicher sind da wohl auch finanzkräftige Spender darunter.

Autor: F. Fo (foldi)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Marco G. schrieb:
> So gibt es zum Beispiel den Zugriff auf Alexa Voice Services als
> Demo-Anwendung.

Musste sofort an die neue Werbung von Amazon für dieses Alexa denken.
Was wird wohl Amazon davon haben?

Autor: armab (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
>Ich hab aber möglicherweise was gefunden.

hab die Quelle mal schnell durchgeschaut, leider nix zu PDM -> PCM 
Umwandlung gefunden...

Autor: Martin (Gast)
Datum:

Bewertung
-1 lesenswert
nicht lesenswert
MEMS Mikrophone?  Mit  62dB  SNR wie  vor 50 Jahren?

Autor: Schreiber (Gast)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Martin schrieb:
> MEMS Mikrophone?  Mit  62dB  SNR wie  vor 50 Jahren?

Hier geht es um Sprache, nicht um die originlgetreue Aufnahme eines 
Konzertstückes. Bei ersterem kann man Störgeräusche und Rauschen per 
Software unterdrücken, bei letzterem nicht.

Autor: Andreas Schwarz (andreas) (Admin) Benutzerseite Flattr this
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Das Ding ist zur Anwendung in akustisch "dreckigen" Umgebungen wie einem 
Wohnzimmer gedacht. Da würde dir ein top rauscharmes Studiomikrofon 
wenig bringen - lieber mehrere billige Mikrofone, die einem dafür die 
räumliche Information zur Filterung des Umgebungsgeräusches bieten (und 
das Eigenrauschen lässt sich durch Kombination der Mikrofonsignale auch 
reduzieren).

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.