Offline-Spracherkennung

Spracherkennung ohne Cloud, englisch speech recognition oder speech-to-text (STT).

Oft wird keine echte Spracherkennung benötigt, also Diktat von freiem Text, sondern es reichen wenige vorher festgelegte Sprachbefehle, auch Sprachsteuerung genannt, engl. intent (z.B. Licht an, Jalousien herunterfahren).

Daneben gibt es noch das Aktivierungswort um die Spracherkennung aufzuwecken engl. wake-word (z.B. Hey Mercedes). Die nötige Rechenleistung muss gering sein und oft wird die Funktion offline auf dem Endgerät ausgeführt, teilweise von einem spezialisierten Prozessor. Wikipedia:Aktivierungswort

Theoretische Grundlagen gibt es auf Wikipedia:Spracherkennung.

Sprachassistenten für Raspberry Pi

Natürlich lauffähig auf jedem Linux-System.

Rhasspy-Doku und Rhasspy-Forum
Jasper
Mycroft.ai Nur mit Aufwand Offline, siehe FAQ
Home Assistant
~~Snips~~ bei c't und Elektor (übernommen von Sonos)
Leon (Anleitung)

Windows-Software

Windows Spracherkennung (Start -> Einstellungen -> Sprecherkennung)
Dragon NaturallySpeaking (Wikipedia)

Hardwaremodul

Hardwaremodule in Form von ICs oder Libraries für Controller bieten meist nur vorher definierte Sprachbefehle.

PicoVoice.AI - Library für große Mikrocontroller, also ARM Cortex-M4...M7 Anleitung Arduino (µc.net)
- Wakeword-Engine Porcupine
- Sprachbefehl-System Rhino für English, Deutsch, Français, Español, Português, Italiano, 日本語, 한국어
- Spracherkennung PicoX (STT) Alpha-Stadium
ST Sensory’s TrulyHandsfree Voice Control STM32 Library
vicControl bei heise.de Make: Sprecher-unabhängige Spracherkennung, siehe auch cc2.tv: vicCONTROL go (DevKit)
µc.net Diskussion: Sprachsteuerung / Spracherkennung mit vielen ICs. (2020)
- Audeme MOVI Arduino Shield 75$ Sprecherunabhängig, "requires no voice samples for training and is speaker independent"
- GeeeTech Arduino Voice Recognition Module 20$ Unterscheidet ein paar Befehle, die vorher aufgenommen wurden.
µc.net Diskussion: Spracherkennungs-chip low-power (2019)
µc.net Diskussion: Welcher Mikrocontroller für Spracherkennung? (2017)
µc.net Diskussion: Spracherkennung auf dem uC (2021)
- NXP EdgeReady MCU Based Solution for Local Voice Control
- voice INTER connect GmbH, Dresden Sprachsteuerung, Mikrofonarrays, Intercom-Produkte, VoIP-Telefone
- Library Machine learning with TensorFlow and Mbed OS
- Framework esp_sr für wake word, command recognition, acoustic algorithm (Echo Cancellation, Automatic Gain Control, Noise Suppression)
- Nuvoton ISD9160 IC
SpeakUp click IC, sprecherabhängig, vorher aufgenommene Befehle

Open-Source

Mozilla Common Voice und DeepSpeech
- 🐸Coqui.ai
  - Blogpost STT Fast, Lean, and Ubiquitous
  - Blogpost A Journey to <10% Word Error Rate
  - Mozilla-Forum
  - Github
Wikipedia: Software-Liste, davon Open-Source:
- Julius: Wikipedia und Ubuntu-Wiki Simon (Frontend)
- CMU Sphinx (Wikipedia) und PocketSphinx
- Kaldi (auch auf GitHub)
Wikipedia: Janus Recognition Toolkit
SOPARE in Python
Vosk ist ein speech recognition toolkit mit 20 Sprachen, darunter Deutsch, Englisch, Chinesisch, Russisch; 50 MB je Sprache. Läuft auf Raspberry Pi, Android, iOS.
- vosk-android-demo-0.3.23.apk offline Spracherkennung mit Kaldi (s.o) und Vosk
- F-Droid: Dicio Voice assistant für Android mit offline Vosk-Spracherkennung GitHub

Siehe auch

Offline-Sprachausgabe (TTS)
OpenVoice-Tech Wiki von Thorsten Müller
Google: Improving On-Device Speech Recognition with VoiceFilter-Lite 2020 - Filter overlapping speech and focus on selected speaker only

▶ Dieser Artikel

▶ Benutzer

▶ Suche

▶ Werkzeuge