Ich habe eine Anwendung, in der ein Modul (Stromverbrauch im Standby < 0.1W) einfach nur auf ein Wake Word reagieren soll um ein Licht einzuschalten (Relais). Jetzt gibt es diverse Module, die alle Spracherkennung versprechen, aber ich müsste jedes Mal ein neues Modell trainieren. Das wäre nicht so schlimm, wenn ich nicht meine eigenen Daten bereitstellen müsste. Gibt's nicht vielleicht irgendwas, was bereits eine Liste verschiedener Wake Words erkennen kann, von mir aus auch vorgefertigt (Licht, Light, On, irgendsowas, halt night Alexa oder Hallo Google), oder wo ich ein Wake Word aus dem Text erzeugen kann? Da jetzt in der Umgebung die Hintergrundgeräusche aufzunehmen, verschiedene Sprecher das Wort sagen zu lassen etc. ist mir zu aufwendig und auch datenschutzrechtlich bedenklich, da nicht nur ich dort Zugang habe.
Falls es identische Module sind und kein super-billiger China-Schrott, kannst du das trainierte Modell doch sicher übertragen?
https://docs.espressif.com/projects/esp-sr/en/latest/esp32s3/wake_word_engine/README.html https://docs.espressif.com/projects/esp-sr/en/latest/esp32s3/wake_word_engine/README.html#esp-open-wake-word Die vordefinierten Wörter sind leider größtenteils chinesisch... PS: Das "ohne Training" ist so eine Sache - das Training ist in der Praxis das Hauptproblem. So manches KI-Projekt ist daran gescheitert, dass nicht genug (gute) Trainingsdaten zur Verfügung stehen.
:
Bearbeitet durch User
Jemin K. schrieb: > Da jetzt in der Umgebung die Hintergrundgeräusche aufzunehmen, > verschiedene Sprecher das Wort sagen zu lassen etc. ist mir zu aufwendig > und auch datenschutzrechtlich bedenklich, da nicht nur ich dort Zugang > habe. Gerade Trainingsdaten für KI-Modelle sind perfekt anonymisierbar, datentechnisch also eher unproblematisch. Dass du den Aufwand scheust, ist als Argument schon eher plausibel ;-)
Hallo Jemin K. schrieb: > Das wäre nicht so schlimm, wenn ich nicht meine eigenen > Daten bereitstellen müsste. Erklär das mal bitte etwas genauer - was musst du da bereitstellen? Adressen, Realnamen,...? Wenn ja ernsthaft (ohne Ironie ohne Wertung): Warum und wofür? Oder halt nur (auch) deine Stimme - was wäre daran das Problem - so ein System muss nun mal die Sprachweise von möglichst vielen Leuten kennenlernen. Niklas G. schrieb: > PS: Das "ohne Training" ist so eine Sache - das Training ist in der > Praxis das Hauptproblem. Was sind gute Trainingsdaten? Ist es die reine Menge Was ist das Problem an guten Trainingsdaten zu kommen? Rainer W. schrieb: > Gerade Trainingsdaten für KI-Modelle sind perfekt anonymisierbar, > datentechnisch also eher unproblematisch. Warum muss da überhaupt was anonymisiert werden, wie würden den die Trainingsdaten für ein Spracherkennungssystem für eine Worterkennung gewonnen werden? Reicht es nicht aus wenn möglichst viele Leute in verschiedenen sinnvollen Umgebungen z.B. "Licht an" in ein hingehaltenes Mikrofon mit einen geeigneten Aufzeichnungsgerät (heutzutage wohl einfach ein Smartphone) hinein-quatschen? Ist das nur ein rechtliches Problem? Wenn ja was denn da genau? Die Fragen sind ernst und ohne "politisches" Statement bzw. ironische wertenden Hintergrund gemeint.
:
Bearbeitet durch User
Dieterich schrieb: > Was sind gute Trainingsdaten? Ist es die reine Menge Auch, du brauchst tausende Samples > Was ist das Problem an guten Trainingsdaten zu kommen? Hängt natürlich stark von der Anwendung ab. Möchtest du z.B. Flugzeuge von Fotos erkennen musst du tausende Fotos von Flugzeugen beschaffen und alle korrekt manuell annotieren. Bei Sprache ist es einfacher, aber auch hier brauchst du viele Positiv-und Negativsamples von vielen Sprechern.
Dieterich schrieb: > Warum muss da überhaupt was anonymisiert werden Man will aus gutem Grund keinen von irgendwem irgendwo betriebenen KI-Systemen Trainingsdaten zur Verfügung stellen, und schon gar nicht irgendwelche biometrisch auswertbare Daten, zu denen Sprechproben eindeutig auch gehören.
Klar kann ich die anonymisieren, aber ich brauche ja nicht nur Positivbeispiele sondern auch Negative. Deshalb müsste man eine Weile die Hintergrundgeräusche und Gespräche aufnehmen die dort erfolgen. Das darf ich überhaupt nicht.
Jemin K. schrieb: > Das darf ich überhaupt nicht. Die großen KI Anbieter lösen das Problem zur Zeit ganz einfach, indem sie es ignorieren. Wir haben digitale Raubritter und sind irgendwie auch alle ein bisschen mit schuld, weil wir deren Dienste trotzdem nutzen.
Wakeword ohne Trainung kenne ich nur vom MOVI von https://www.audeme.com/ Der ist aber leider nicht guenstig. Wake-Word wird ueber seriellen Befehl gesetzt, dann startet er neu und trainuert sich selbst auf das neue Wake-Word. Allerdings ist die Hard-/Software nicht gerade OpenSource ,:(
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.