KI Modell mit Spracherkennung

von Christoph M. (mchris)

19.04.2026 21:50

Lesenswert?

•

Hier hat Mathias eine recht gute Anleitung zur Inbetriebnahme eines 
Modells mit llama.cpp beschrieben:
Beitrag "Re: Erfahrungen mit AI-Coding"

Welches Modell ist für die Audiospracherkennung geeignet und wie 
verbinde ich das Ganze mit dem Mikrophoneingang?

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von 1N 4. (1n4148)

19.04.2026 23:31

Lesenswert?

•

▲
▼

Gemma 4 E2B/E4B kann auch Sprache 
(https://github.com/ggml-org/llama.cpp/issues/21325#issuecomment-4187969225) 
oder eben whisper.cpp

19.04.2026 23:31: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

20.04.2026 06:21

Lesenswert?

•

▲
▼

1N 4. schrieb:
> Gemma 4 E2B/E4B kann auch Sprache

Danke für die Antwort.
Jetzt stellt sich mir aber die Frage, wie kommt der Audio-Stream in die 
KI?
Eine Lösung die mir einfallen würde, wäre mit einem Python-Script 
Sprachsignal aufnehmen und als Wav auf die Platte schreiben und dann via 
Script das Wav Signal an das Modell senden. Aber ich vermute stark, dass 
es da einen viel einfacheren Workflow gibt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Bradward B. (Firma: Starfleet) (ltjg_boimler)

20.04.2026 07:03

Lesenswert?

•

▲
▼

speech-to-text engine, bspw.:
* https://gnulinux.ch/whisper-eine-freie-speech-to-text-engine

* https://gnulinux.ch/serie-sprachsteuerung-teil-1

20.04.2026 07:05: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

21.04.2026 07:12

Lesenswert?

•

▲
▼

1N 4. schrieb:
> Gemma 4 E2B/E4B kann auch Sprache
> (https://github.com/ggml-org/llama.cpp/issues/21325#issuecomment-4187969225)

Danke für den Link. Ich hatte den erst etwas unterschätzt, weil er auf 
"issues" zeigt.
Mittlerweile ist klar, warum man in Zukunft einen Glasfaseranschluss 
braucht: Im Testscript wird das 16GB Google-Gemma-Modell gezogen und da 
muss man erst mal eine halbe Stunde warten.

Leider scheint auch meine Graphikarte für das Modell zu klein:

  File "~/venv/ch/lib/python3.12/site-packages/transformers/core_model_loading.py", line 794, in _materialize_copy
    tensor = tensor.to(device=device, dtype=dtype)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 5.25 GiB. GPU 0 has a total capacity of 7.52 GiB of which 921.12 MiB is free. Including non-PyTorch memory, this process has 6.44 GiB memory in use. Of the allocated memory 1.83 GiB is allocated by PyTorch, and 4.50 GiB is reserved by PyTorch but unallocated.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Bradward B. (Firma: Starfleet) (ltjg_boimler)

21.04.2026 07:23

Lesenswert?

•

▲
▼

> Mittlerweile ist klar, warum man in Zukunft einen Glasfaseranschluss
> braucht: Im Testscript wird das 16GB Google-Gemma-Modell gezogen und da
> muss man erst mal eine halbe Stunde warten.

Herrje, wie haben wir damals Linux installieren können obwohl uns nur 
ein lausiges 56k Modem zur Verfügung stand ... SCNR

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von G. K. (zumsel)

21.04.2026 07:26

Lesenswert?

•

▲
▼

Bradward B. schrieb:

> Herrje, wie haben wir damals Linux installieren können obwohl uns nur
> ein lausiges 56k Modem zur Verfügung stand ... SCNR

Oder für eine Installation 50 Disketten durchnudeln mussten.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Bradward B. (Firma: Starfleet) (ltjg_boimler)

21.04.2026 07:32

Lesenswert?

•

▲
▼

>> Herrje, wie haben wir damals Linux installieren können obwohl uns nur
>> ein lausiges 56k Modem zur Verfügung stand ... SCNR
>
> Oder für eine Installation 50 Disketten durchnudeln mussten.

Bis es dann die CD's von SuSE gab ...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

21.04.2026 08:57

Lesenswert?

•

▲
▼

Bradward B. schrieb:
> speech-to-text engine, bspw.:
> * https://gnulinux.ch/whisper-eine-freie-speech-to-text-engine

Whisper funktioniert, aber schnarchlangsam

whisper wieWetter.wav --model medium
Detected language: German
[00:00.000 --> 00:03.000]  Mal eine Frage, wie wird das Wetter heute?


Ich vermute, es wird jedesmal das Modell neu geladen, wenn man whisper 
per Kommandozeile startet. Es muss also eine Möglichkeit geben, das Ding 
resident im Speicher zu halten und die Wav-Junks hin zu schicken.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Vanye R. (vanye_rijan)

21.04.2026 09:34

Lesenswert?

•

▲
▼

> Herrje, wie haben wir damals Linux installieren können obwohl uns nur
> ein lausiges 56k Modem zur Verfügung stand ... SCNR

"Wir" waren auf Party wo uns jemand die ersten 4Stk 5 1/4 ruebergereicht 
hat. :-D

Vanye

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

21.04.2026 10:24

Lesenswert?

•

▲
▼

(ch) christoph@Ryzen5:~/Entwicklung/260202_KI/Spracherkennung/whisper$ python whisperVAD.py 
Using device 7 at 16000 Hz
Listening...
→  In diesem Beitrag geht es um Spracherkennung, hier geht es nicht um Modems oder Datenübertragung.
Ende verstanden

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Joerg W. (joergwolfram)

21.04.2026 13:21

Lesenswert?

•

▲
▼

> Whisper funktioniert, aber schnarchlangsam

Dem kann man etwas abhelfen:

- fater-whisper oder Whisper-Ctranlate2  verwenden
- das large-v3-turbo Modell benutzen

Damit komme ich mit meinem i5-7300 (2600MHz) auf rund 75% 
"Echtzeitgeschwindigkeit" im Batch mode, d.h. für 4min Sample braucht er 
ca. 6min zum konvertieren in Text. Für meine Zwecke war das bis jetzt 
ausreichend. Für die Nachbearbeitung habe ich mir ein Perl-Script 
geschrieben, welches die json in eine RTF Datei umwandelt, mit farbig 
hinterlegtem Text wenn wählbare Wahrscheinlichkeitsgrenzen 
unterschritten werden und Absätzen bei Sprechpausen.

Whisper-Ctranlate2 hat auch einen Live-Modus, mit dem man das zumindest 
testen kann.

Jörg

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Mathias M. (matjes)

21.04.2026 19:33

Angehängte Dateien:

E4B.txt (1,56 KB)
E2B.txt (1,64 KB)

Lesenswert?

•

▲
▼

Christoph M. schrieb:
> Leider scheint auch meine Graphikarte für das Modell zu klein:

Das ist halt die langsam implementierte Version.
Llama.cpp ist schneller, kann den Speicher auf GPU+CPU aufteilen.

https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF
https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF/

Passendes gguf laden. Für Audio oder vision brauchst du auch das mmproj 
File.

Mit E2B-Q8 + mmproj-F16.gguf komm ich mit meiner 9070 auf 15x Realtime.
E4B-Q8 ist nur minimal langsamer.

Dümmlicherweise sind die mmproj files Model-spezifisch, auch wenn sie 
gleich heißen...

Ich hab ein populäres Lied transkribieren lassen. Ergebnis ist ... na 
ja. Ist ja aber auch ein Lied mit allem...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Mathias M. (matjes)

21.04.2026 20:40

Angehängte Dateien:

whisper-large-v3.txt (6,62 KB)
whisper-large-v3-turbo.txt (4,62 KB)

Lesenswert?

•

▲
▼

Whisper gibts auch in schnell:

https://github.com/ggml-org/whisper.cpp

Mit Vulkan auf der 9070 ca 20x Realtime mit dem base.en Model
Mit large-v3 3.3x Realtime
Mit large-v3-turbo 14x realtime


Nochmal Gemma. Diesmal mit mmproj-F32 ... macht irgendwie auch keinen 
Qualitätsunterschied. Wahrscheinlich ist das Lied durch die 
Trainingsdaten verbrannt. Ich hab nochmal ein anderes probiert.

Sowieso sind die Modelle jetzt nicht unbedingt auf Lieder trainiert. IMO 
ein Härtetest.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

22.04.2026 05:44

Lesenswert?

•

▲
▼

Mathias M. schrieb:
> Sowieso sind die Modelle jetzt nicht unbedingt auf Lieder trainiert. IMO
> ein Härtetest.

Danke für Deine Hinweise. Meine Spracherkennung muss allerdings gut bei 
der Erkennung der deutschen Sprache sein. Naturgemäß scheint es viel 
mehr englschsprachige Spracherkenner zu geben und vielleicht 
funktionieren die bei Englisch auch besser.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Bradward B. (Firma: Starfleet) (ltjg_boimler)

22.04.2026 05:57

Lesenswert?

•

▲
▼

> Sowieso sind die Modelle jetzt nicht unbedingt auf Lieder trainiert. IMO
> ein Härtetest.

Speechrecognition ist eben ein zu harten Job für die Maschine, selbst 
ein Mensch, der gut zuhören kann, schafft das nur bei eingeschränkten 
Kontext.
IMHO könnte das in einem face2facesetting (Einschluss der non-verbalen 
KOmmunikation (bspw. Minenspiel)) besser laufen.

Und hier in diesem thread wird das auf simple Installation eines 
vorgefertigt-generischen Softwarepaketes reduziert, keinerlei Anpassung 
der Audioaufzeichnung auf menschliches Sprachgehör (bspw. 
Bandbreitenbeschränkung auf 4kHz, Equalizer, Richtmikrofon, ...) das 
kann IMHO nur bescheiden enden.

Vielleicht als Zwischenschritt sich an einer Konversion Bärndütsch (Bern 
deutsch, Schweiz) -> Hochdeutsch versuchen, da braucht es kaum 
Sprachverständniss, fast nur Phonemanpassung.

https://youtu.be/8n0f2sJJfzs?t=122

22.04.2026 06:21: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

22.04.2026 06:30

Angehängte Dateien:

whisperVAD.py (4,6 KB) | Codeansicht

Lesenswert?

•

▲
▼

Joerg W. schrieb:
>> Whisper funktioniert, aber schnarchlangsam
>
> Dem kann man etwas abhelfen:
>
> - fater-whisper oder Whisper-Ctranlate2  verwenden

Danke für den Hinweis. Praktischerweise gibt es hier
https://opennmt.net/CTranslate2/quickstart.html
ja auch einen Hinweis, wie man das Ganze an Python anbindet.

Ich hatte gestern das normale Whisper an ein Python-Script gehängt.
Nach ziemlich langem probieren hat es dann geklappt. Die Schwierigkeit 
war, die device-ID des Microphons zu finden und das Script lief nicht 
an, weil die Samplerate des Microphon im Script exakt stimmen muss. 
Obwohl die Samplerate des Treibers 48kHz angezeigt hatte, war das falsch 
und man muss 16kHz einstellen.
Mit dem Sript kann man theoretisch eine Art "Alexa" bauen, mit der man 
dann das Licht steuern könnte.

Im Moment ist die Spracherkennung auf Deutsch eingestellt und es wird 
das Wort "Ende" erkannt, damit ich das Script per Sprachbefehl beenden 
kann:

result = model.transcribe(
    tmp.name,
    language="de",
    task="transcribe",   # (not translate!)
    temperature=0.0
#result = model.transcribe(tmp.name, language="de")
txt=result["text"]
print("→", txt)
if txt.__contains__("Ende.") :
    flag=False
    print("Ende verstanden")

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Bradward B. (Firma: Starfleet) (ltjg_boimler)

22.04.2026 07:19

Lesenswert?

•

▲
▼

> Im Moment ist die Spracherkennung auf Deutsch eingestellt und es wird
> das Wort "Ende" erkannt, damit ich das Script per Sprachbefehl beenden
> kann:

Na wenn da ende nicht mit "Spende", "Gelände" oder anderen auf "-ende" 
endenden Wörter verwechselt wird.

In der Funkkommunikation gibt es xtra vereinbarte 
Terminierungsworte/-phrasen  (Bspw.: "Over", "Over and Out", "Конец 
передачи") und Bestätigung desselben ("Roger that", "Copy that").
Halt Kontext-sensetiv.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

22.04.2026 07:35

Lesenswert?

•

▲
▼

Bradward B. schrieb:
> Na wenn da ende nicht mit "Spende", "Gelände" oder anderen auf "-ende"
> endenden Wörter verwechselt wird.

[ ] Du kannst Pythoncode lesen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Bradward B. (Firma: Starfleet) (ltjg_boimler)

22.04.2026 07:40

Lesenswert?

•

▲
▼

> [ ] Du kannst Pythoncode lesen.

Der ist halt an der Alltags-Realität vorbei programmiert ... wer spricht 
schon Satzzeichen und regex .

22.04.2026 07:46: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Norbert (der_norbert)

22.04.2026 09:37

Lesenswert?

•

▲
▼

Christoph M. schrieb:
> if txt.__contains__("Ende.") :

Da fragt man sich allerdings was aus dem guten, alten
›if txt.count("Ende.")‹
geworden ist. PEP würde sich freuen, wenn es nicht völlig in 
Vergessenheit geräte.

PS: 3.3.7. Emulating container types

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

22.04.2026 10:23

Lesenswert?

•

▲
▼

Norbert schrieb:
> Da fragt man sich allerdings was aus dem guten, alten
> ›if txt.count("Ende.")‹
> geworden ist. PEP würde sich freuen, wenn es nicht völlig in
> Vergessenheit geräte.

Wenn man bei Whisper (medium) "Ende" sagt, erzeugt es den Text "Ende.". 
Es scheint also das Wort schon irgendwie zu interpretieren und 
vielleicht gibt es da eine Verbindung zu deinem Text oben.

"Ende." als Programmtermination zu nutzen, ist natürlich schon "Murks". 
Ich fand es aber lustig, das mal so zu machen, weil dadurch quasi eine 
echte Aktion durch das Sprechen ausgelöst wird.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Norbert (der_norbert)

22.04.2026 10:28

Lesenswert?

•

▲
▼

Christoph M. schrieb:
> Norbert schrieb:
>> Da fragt man sich allerdings was aus dem guten, alten
>> ›if txt.count("Ende.")‹
>> geworden ist. PEP würde sich freuen, wenn es nicht völlig in
>> Vergessenheit geräte.
>
> Wenn man bei Whisper (medium) "Ende" sagt, erzeugt es den Text "Ende.".
> Es scheint also das Wort schon irgendwie zu interpretieren und
> vielleicht gibt es da eine Verbindung zu deinem Text oben.
>
> "Ende." als Programmtermination zu nutzen, ist natürlich schon "Murks".
> Ich fand es aber lustig, das mal so zu machen, weil dadurch quasi eine
> echte Aktion durch das Sprechen ausgelöst wird.

Es geht darum, dass man die

1	__wasauchimmer__

 Methoden in diesem Kontext niemals verwendet.

22.04.2026 10:29: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Sheeva P. (sheevaplug)

25.04.2026 19:15

Lesenswert?

•

▲
▼

Christoph M. schrieb:
>

> if txt.__contains__("Ende.") :

1	if "Ende." in txt:

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

26.04.2026 04:57

Lesenswert?

•

▲
▼

Sheeva P. schrieb:
> if "Ende." in txt:

So ist es schöner. Zugegebenermaßen war ich faul und habe mir die paar 
Zeilen per KI generiert und dachte, die wird schon wissen, was sie tut 
;-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

28.04.2026 15:49

Angehängte Dateien:

openWebGuiGemma4e2b.png
100 KB

Lesenswert?

•

▲
▼

Wenn ich das richtig interpretiere, sollten die kleinen gemma4 Modelle 
Spracherkennung können (siehe Zeile Audio):
https://ollama.com/library/gemma4

Wenn man mit Open-webgui das Modell fragt, gibt es das aber scheinbar 
doch nicht (sie Screeshot).

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Rolf (rolf22)

28.04.2026 16:45

Lesenswert?

•

▲
▼

Bradward B. schrieb:
> speech-to-text engine

Ist jedenfalls keine KI-Neuheit.

Diktiersoftware für den PC war schon in Windows Vista, also vor ca. 20 
Jahren integriert, nur wussten das die meisten PC-Nutzer gar nicht.
Und schon vor circa 30 Jahren konnte man "Dragon Natural Speaking" für 
Windows kaufen.

Manche Übersetzer haben das schon damals eingesetzt. Problem: Man muss 
druckreif formuliert sprechen können, sonst frisst die Zeit für 
Änderungen/Verbesserungen die durch das Diktieren (statt Tippen) 
ersparte Zeit auf.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

28.04.2026 17:58

Lesenswert?

•

▲
▼

Rolf schrieb:
> Bradward B. schrieb:
>> speech-to-text engine
>
> Ist jedenfalls keine KI-Neuheit.

Klar. Ist ein wenig so wie wenn man sagen würde, ein Audi-Etron sei auch 
keine Neuigkeit, weil Karren mit 4 Rädern gab es auch schon vor 2000 
Jahren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Εrnst B. (ernst)

28.04.2026 20:01

Lesenswert?

•

▲
▼

Christoph M. schrieb:
> Wenn ich das richtig interpretiere, sollten die kleinen gemma4 Modelle
> Spracherkennung können (siehe Zeile Audio):

Wenn Ollama keine API/Interface dazu bereitstellt, hilft es nichts wenn 
das Modell Audio könnte.

Du kannst das gemma4-Modell z.B. über PyTorch nutzen, da geht das.

Evtl. auch, wenn du direkt llama.cpp nutzt, ohne die 
Ollama-Abstraktionsschicht außenherum.
Aber die schreiben "Audio is highly experimental and may have reduced 
quality."

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

18.06.2026 10:25

Angehängte Dateien:

schlau.mp3 (491 KB)

Lesenswert?

•

▲
▼

Whisper Medium scheint seltsame Eigenschaften zu haben.

Das obige Script realisiert ja eine online Spracheingabe die immer 
mitläuft:
Beitrag "Re: KI Modell mit Spracherkennung"

Bisweilen fängt das Modell aber an zu Halluzinieren und gibt so was von 
sich:

→  Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau. Ich bin ein bisschen schlau, aber ich bin auch ein bisschen schlau.


Als Sprachausgabe habe ich "supertonic"
https://huggingface.co/Supertone/supertonic-3
dran gehängt, was den erkannten Text einfach nachsprechen soll 
(Hörbeispiel im Anhang).

18.06.2026 10:31: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Frank E. (Firma: Q3) (qualidat)

21.06.2026 16:29

Lesenswert?

•

▲
▼

Rolf schrieb:
> Diktiersoftware für den PC war schon in Windows Vista, also vor ca. 20
> Jahren integriert, nur wussten das die meisten PC-Nutzer gar nicht.
> Und schon vor circa 30 Jahren konnte man "Dragon Natural Speaking" für
> Windows kaufen.

Mit dem kleinen Unterschied, das die (und andere) nur dann halbwegs 
funktionierten (meist als Sekretärinnen-Ersatz um lange Texte zu 
diktieren), wenn man vorher ein aufwändiges Training bzw. Anlernen 
absolvierte. Dazu präsentierte die Software Texte, die man wieder und 
wieder vorlesen musste. Super Mikrofon, keine Nebengräusche und immer 
die gleiche Art zu Sprechen, nix heiser sein oder sich räuspern.

Was man heute erwartet ist "Sprecher-Unabhhängigkeit". Sobald jemand 
hinreichend deutlich in der vereinbarten Sprache spricht, sollen die 
Worte erkannt werden.

Das ist wie beim OCR die Stufe nach dem Erkennen der Buchstaben. Den 
tieferen Sinn zu erschließen, dafür ist dann die KI zuständig. Und die 
kann das ganz gut, denn sie kommt z.B. auch mit den meisten Tippfehlern 
zurecht (sofern diese den Sinn nicht extrem entstellen) ...

Sprachausgabe ist dagegen (nach Jahrzehnten der Forschung) fast schon 
primitiv, quasi wie ein rein mechanischer Vorgang. Denn inzwischen ist 
der Zusammenhang zwischen Text und gesprochenem Wort nahzu vollständig 
erforscht, da gibts nur noch Verfeinerungen im Detail.

21.06.2026 16:31: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

21.06.2026 18:22

Lesenswert?

•

▲
▼

Frank E. schrieb:
> Sprachausgabe ist dagegen (nach Jahrzehnten der Forschung) fast schon
> primitiv, quasi wie ein rein mechanischer Vorgang.

Naja, fast: Die Sprachausgabe scheint zwar erst mal weniger komplex als 
die Spracheingabe. Immerhin gab es die Sprachausgabe schon auf dem 
Attari ST.
Allerdings sollte man die extrem aufwändige Forschung und das Einfließen 
deren Ergebnisse in die heutigen Sprachgeneratoren nicht vergessen. Da 
braucht es schon eine KI-gestützte Erkennung Inhalts und 
Emmotionserkennung, um die Ausgabe nicht langweilig klingen zu lassen.
Beitrag "Re: KI: Stand und Weiterentwicklung"

Ich suche immer noch nach einer guten Ausgabe für Linux ohne 
Spezialmodell, aber da wird immer espeak vorgeschlagen und das spricht 
mechanisch langweilig.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Rbx (rcx)

28.06.2026 13:36

Lesenswert?

•

▲
▼

Hier wäre auch noch was nettes für einige Computerspiele:
https://art-from-the-machine.github.io/Mantella/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Christoph M. (mchris)

09.07.2026 07:56

Lesenswert?

•

▲
▼

ChatGPT Voice bietet scheinbar das gleichzeitige hören und sprechen:
https://www.heise.de/news/Dank-Full-Duplex-Architektur-ChatGPT-Voice-hoert-zu-waehrend-es-spricht-11358735.html
Wie das wohl akustisch geht?
Ansonsten wäre es natürlich super, wenn man so was ähnliches auch als 
lokales Modell bekommen könnte.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: KI Modell mit Spracherkennung

von Εrnst B. (ernst)

09.07.2026 08:06

Lesenswert?

•

▲
▼

Christoph M. schrieb:
> Wie das wohl akustisch geht?

Das muss nicht akustisch (Headset) gehen, das macht Software/DSP.

Du schaust wie stark und wieviel verzögert dein Lautsprechersignal 
wieder am Mic ankommt, und rechnest das dann einfach wieder raus.

Braucht keine KI, passende Algorithmen bringen Browser schon mit (WebRTC 
AEC)
d.H. das muss noch nichtmal bei OpenAI in der Cloud laufen, dein 
Webbrowser erledigt das schon und schickt dein Gelaber sauber getrennt 
vom KI-Gelaber in die Cloud.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC Hard- und Software KI Modell mit Spracherkennung