Offline-Spracherkennung
Spracherkennung ohne Cloud, englisch speech recognition oder speech-to-text (STT).
Oft wird keine echte Spracherkennung benötigt, also Diktat von freiem Text, sondern es reichen wenige vorher festgelegte Sprachbefehle, auch Sprachsteuerung genannt, engl. intent (z.B. Licht an, Jalousien herunterfahren).
Daneben gibt es noch das Aktivierungswort um die Spracherkennung aufzuwecken engl. wake-word (z.B. Hey Mercedes). Die nötige Rechenleistung muss gering sein und oft wird die Funktion offline auf dem Endgerät ausgeführt, teilweise von einem spezialisierten Prozessor. Wikipedia:Aktivierungswort
Theoretische Grundlagen gibt es auf Wikipedia:Spracherkennung.
Sprachassistenten für Raspberry Pi
Natürlich lauffähig auf jedem Linux-System.
- Rhasspy-Doku und Rhasspy-Forum
- Jasper
- Mycroft.ai Nur mit Aufwand Offline, siehe FAQ
- Home Assistant
Snipsbei c't und Elektor (übernommen von Sonos)- Leon (Anleitung)
Windows-Software
- Windows Spracherkennung (Start -> Einstellungen -> Sprecherkennung)
- Dragon NaturallySpeaking (Wikipedia)
Hardwaremodul
Hardwaremodule in Form von ICs oder Libraries für Controller bieten meist nur vorher definierte Sprachbefehle.
- PicoVoice.AI - Library für große Mikrocontroller, also ARM Cortex-M4...M7 Anleitung Arduino (µc.net)
- Wakeword-Engine Porcupine
- Sprachbefehl-System Rhino für English, Deutsch, Français, Español, Português, Italiano, 日本語, 한국어
- Spracherkennung PicoX (STT) Alpha-Stadium
- ST Sensory’s TrulyHandsfree Voice Control STM32 Library
- vicControl bei heise.de Make: Sprecher-unabhängige Spracherkennung, siehe auch cc2.tv: vicCONTROL go (DevKit)
- µc.net Diskussion: Sprachsteuerung / Spracherkennung mit vielen ICs. (2020)
- Audeme MOVI Arduino Shield 75$ Sprecherunabhängig, "requires no voice samples for training and is speaker independent"
- GeeeTech Arduino Voice Recognition Module 20$ Unterscheidet ein paar Befehle, die vorher aufgenommen wurden.
- µc.net Diskussion: Spracherkennungs-chip low-power (2019)
- µc.net Diskussion: Welcher Mikrocontroller für Spracherkennung? (2017)
- µc.net Diskussion: Spracherkennung auf dem uC (2021)
- NXP EdgeReady MCU Based Solution for Local Voice Control
- voice INTER connect GmbH, Dresden Sprachsteuerung, Mikrofonarrays, Intercom-Produkte, VoIP-Telefone
- Library Machine learning with TensorFlow and Mbed OS
- Framework esp_sr für wake word, command recognition, acoustic algorithm (Echo Cancellation, Automatic Gain Control, Noise Suppression)
- Nuvoton ISD9160 IC
- SpeakUp click IC, sprecherabhängig, vorher aufgenommene Befehle
Open-Source
- Mozilla Common Voice und DeepSpeech
- Wikipedia: Software-Liste, davon Open-Source:
- Julius: Wikipedia und Ubuntu-Wiki Simon (Frontend)
- CMU Sphinx (Wikipedia) und PocketSphinx
- Kaldi (auch auf GitHub)
- Wikipedia: Janus Recognition Toolkit
- SOPARE in Python
- Vosk ist ein speech recognition toolkit mit 20 Sprachen, darunter Deutsch, Englisch, Chinesisch, Russisch; 50 MB je Sprache. Läuft auf Raspberry Pi, Android, iOS.
- vosk-android-demo-0.3.23.apk offline Spracherkennung mit Kaldi (s.o) und Vosk
- F-Droid: Dicio Voice assistant für Android mit offline Vosk-Spracherkennung GitHub
Siehe auch
- Offline-Sprachausgabe (TTS)
- OpenVoice-Tech Wiki von Thorsten Müller
- Google: Improving On-Device Speech Recognition with VoiceFilter-Lite 2020 - Filter overlapping speech and focus on selected speaker only