Offline-Sprachausgabe (TTS)

Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch Text-to-Speech (TTS).

Bis Mitte der 2010er-Jahre wurde der analytischer Ansatz verwendet. Der Text wird über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist:

Eingangstext
Lautschrift
Phoneme
Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen.

Genügend Rechenleistung oder eine Internetanbindung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahmen anlernt. Siehe Wikipedia: Deep learning speech synthesis.

Mikrocontroller

Mit einem kleinen Mikrocontroller ist Sprachsynthese nur in schlechter Qualität möglich, klingt also nach Roboterstimme, z.B.:

µc.net Henrik Haftmann TU Chemnitz. Text -> Lautschrift -> Phoneme -> PCM-Wave
AVR-Freaks-Diskussion
SAM Software Automatic Mouth C64-Programm konvertiert nach C

Mehr Sinn macht das Abspielen von kurzen Tonfetzen (Samples), die man kreativ zusammenfügt (fünf-zehn Uhr drei-ßig). 8 kHz x 8 Bit = 8.000 Byte/s reicht für Sprache. Bei größerem Speicherbedarf kann man auf SD-Karten zurückgreifen, z.B. Elm-Chan SD8P, und dann ganze Sätze einspeichern.

Arduino PCM audio playback from SD card von Falk Brunner 2017 (µc.net)
LPC-Kompression mit Talkie für Arduino (dazu 🎧 Hörprobe und Zeitungsartikel)
- Verbessert von ArminJo

Software Open-Source

Liste auf Wikipedia: Sprachsynthese-Software, darunter Open-Soure:
- MaryTTS vom DFKI: Qualität passabel
- PicoTTS Qualität ok
- eSpeak NG auf Wikipedia und GitHub und Android-App auf F-Droid: Wenige MB für mehrere Sprachen. C. Beste Stimme ist NVDA. Qualität mäßig.
- HTS: Qualität ok, nur österreichisch
Mozilla TTS: Neuronalen Netz DNN und maschinelles Lernen vieler Stunden Sprache. Sehr gute Qualität.
- Deutsche Stimme von Thorsten Müller. Sehr gut, aber rechenintensiv. In 2023 in schneller Entwicklung. Gemeinfrei CC0.
- ~~🐸Coqui.ai~~
  - 🎧 Hörproben Englisch
  - Mozilla-Forum
- Mycroft Mimic 3. Performantes offline TTS welches auch auf Raspberry Pi 3/4 gut nutzbare Geschwindigkeiten bietet (100+ Sprachen unterstützt). Thorsten-Voice ist als deutsche Stimme auch mit dabei. Die alte Anleitung ist unnötig.
txt2pho (Hadifix) Sprachausgabe-System entwickelt von der Universität Bonn, eingesetzt in zahlreichen Systemen für Blinde, Sprachqualität gut, sehr flexibel, geeignet für PC und Raspberry Pi
Ubuntu-Wiki: Sprachausgabe (alte und neue Programme)
OpenTTS Sammlung von Docker images mit den Engines: Larynx, Coqui-TTS, Glow-Speak, nanoTTS, MaryTTS, flite, Festival, eSpeak

Software kommerziell

Screenreader NVDA Liste kommerzieller und freier Stimmen
Acapela Stimme Julia deutsch für Android. Auch Windows und kundenspezifisch. 🎧 Hörproben
Windows-Programm 500€
Vielzahl an kommerziellen Stimmen für SAPI5 (Windows), z.B. Eloquence und Vocalizer. Mitgelieferte Windows 10 OneCore Voices sind sehr gut.

Hardware-Modul oder IC

Liste von ICs auf Wikipedia: Sprachsynthese-Hardware
Redcedar (1970er und 80er)

🎧 Hörproben

www.TTSsamples.SyntheticSpeech.de von Prof. Dr. Felix Burkhardt - 🎧 Hörproben 1955 bis heute

Siehe auch

Offline-Spracherkennung (speech recognition) STT
c't 15/2023 Stimmprobe - Sieben Anbieter von KI-Stimmen für Text-to-Speech im Vergleich
Speech Synthesis Markup Language (SSML) um Lautstärke, Tonhöhe oder Geschwindigkeit beeinflussen.
OpenVoice-Tech Wiki von Thorsten Müller

▶ Dieser Artikel

▶ Benutzer

▶ Suche

▶ Werkzeuge

Inhaltsverzeichnis