Offline-Sprachausgabe (TTS)
Sprachsynthese ist die künstliche Erzeugung der menschlichen Sprechstimme, englisch Text-to-Speech (TTS).
Bis Mitte der 2010er-Jahre wurde der analytischer Ansatz verwendet. Der Text wird über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist:
- Eingangstext
- Lautschrift
- Phoneme
- Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen.
Genügend Rechenleistung oder eine Internetanbindung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahmen anlernt. Siehe Wikipedia: Deep learning speech synthesis.
Mikrocontroller
Mit einem kleinen Mikrocontroller ist Sprachsynthese nur in schlechter Qualität möglich, klingt also nach Roboterstimme, z.B.:
- µc.net Henrik Haftmann TU Chemnitz. Text -> Lautschrift -> Phoneme -> PCM-Wave
- AVR-Freaks-Diskussion
- SAM Software Automatic Mouth C64-Programm konvertiert nach C
Mehr Sinn macht das Abspielen von kurzen Tonfetzen (Samples), die man kreativ zusammenfügt (fünf-zehn Uhr drei-ßig). 8 kHz x 8 Bit = 8.000 Byte/s reicht für Sprache. Bei größerem Speicherbedarf kann man auf SD-Karten zurückgreifen, z.B. Elm-Chan SD8P, und dann ganze Sätze einspeichern.
- Arduino PCM audio playback from SD card von Falk Brunner 2017 (µc.net)
- LPC-Kompression mit Talkie für Arduino (dazu 🎧 Hörprobe und Zeitungsartikel)
- Verbessert von ArminJo
Software Open-Source
- Liste auf Wikipedia: Sprachsynthese-Software, darunter Open-Soure:
- MaryTTS vom DFKI: Qualität passabel
- PicoTTS Qualität ok
- eSpeak NG auf Wikipedia und GitHub und Android-App auf F-Droid: Wenige MB für mehrere Sprachen. C. Beste Stimme ist NVDA. Qualität mäßig.
- HTS: Qualität ok, nur österreichisch
- Mozilla TTS: Neuronalen Netz DNN und maschinelles Lernen vieler Stunden Sprache. Sehr gute Qualität.
- Deutsche Stimme von Thorsten Müller. Sehr gut, aber rechenintensiv. In 2023 in schneller Entwicklung. Gemeinfrei CC0.
🐸Coqui.ai- Mycroft Mimic 3. Performantes offline TTS welches auch auf Raspberry Pi 3/4 gut nutzbare Geschwindigkeiten bietet (100+ Sprachen unterstützt). Thorsten-Voice ist als deutsche Stimme auch mit dabei. Die alte Anleitung ist unnötig.
- txt2pho (Hadifix) Sprachausgabe-System entwickelt von der Universität Bonn, eingesetzt in zahlreichen Systemen für Blinde, Sprachqualität gut, sehr flexibel, geeignet für PC und Raspberry Pi
- Ubuntu-Wiki: Sprachausgabe (alte und neue Programme)
- OpenTTS Sammlung von Docker images mit den Engines: Larynx, Coqui-TTS, Glow-Speak, nanoTTS, MaryTTS, flite, Festival, eSpeak
Software kommerziell
- Screenreader NVDA Liste kommerzieller und freier Stimmen
- Acapela Stimme Julia deutsch für Android. Auch Windows und kundenspezifisch. 🎧 Hörproben
- Windows-Programm 500€
- Vielzahl an kommerziellen Stimmen für SAPI5 (Windows), z.B. Eloquence und Vocalizer. Mitgelieferte Windows 10 OneCore Voices sind sehr gut.
Hardware-Modul oder IC
- Liste von ICs auf Wikipedia: Sprachsynthese-Hardware
- Redcedar (1970er und 80er)
🎧 Hörproben
- www.TTSsamples.SyntheticSpeech.de von Prof. Dr. Felix Burkhardt - 🎧 Hörproben 1955 bis heute
Siehe auch
- Offline-Spracherkennung (speech recognition) STT
- c't 15/2023 Stimmprobe - Sieben Anbieter von KI-Stimmen für Text-to-Speech im Vergleich
- Speech Synthesis Markup Language (SSML) um Lautstärke, Tonhöhe oder Geschwindigkeit beeinflussen.
- OpenVoice-Tech Wiki von Thorsten Müller