Forum: Digitale Signalverarbeitung / DSP / Machine Learning Suche KI Modell zur Geräuscherkennung von Menschengelaber und Fahrzeuge


Announcement: there is an English version of this forum on EmbDev.net. Posts you create there will be displayed on Mikrocontroller.net and EmbDev.net.
von Kybernetiker X. (kybernetiker)


Bewertung
-6 lesenswert
nicht lesenswert
Ich such ein KI Modell zur Unterscheidung von Menschenstimme und
Fahrzeuggeräusche. Es liefert das Ergebnis 1 oder 0, je nach dem wie es
detektiert wurde, ob Menschen zu hören sind oder ein brummendes LKW sich
nähert. Optional vielleicht noch andere Geräusche zur Erkennung. Zum
Beispiel Hupen oder Fahrradklingeln, welches das Ergebnis 3 liefert.

Also keine Spracherkennung in dem Sinne...

: Verschoben durch Admin
Beitrag #6392560 wurde von einem Moderator gelöscht.
Beitrag #6392562 wurde von einem Moderator gelöscht.
Beitrag #6392567 wurde von einem Moderator gelöscht.
von Sebastian S. (amateur)


Bewertung
0 lesenswert
nicht lesenswert
Ein sehr sportliches Unterfangen, wenn man sich den Umfang der 
menschlichen Stimme vor Augen hält. Vor allem bei den Möglichkeiten 
viele Geräusche nachzuahmen. Oder eines Papageis menschliches Geplapper 
zu imitieren.

von reality resistance (Gast)


Bewertung
6 lesenswert
nicht lesenswert
Ach, du bist das ?!
Beitrag "Suche Bauplan Transkranieller Magnetstimulator"
Beitrag "Re: Habt ihr fertige Projekte die man verkaufen könnte,"

OK, jetzt wird klar warum das ganze so unausgedacht und wirr 
herüberkommt.

Tipp: wenn es dir nicht gelingt ein Hirnschrittmacher für den 
persönlichen gebrauch selbst zu bauen, dann versuche es mal mit den 
altbewährten Hausmitteln zur Steigerung der geistigen Fähigkeiten, wie 
Bücher lesen und creative Hobbies betreiben.

Immer nur andere unausgegoren um technische Hilfe zu bitten, bringt Dich 
nicht weiter.

von Kybernetiker X. (kybernetiker)


Bewertung
-1 lesenswert
nicht lesenswert
Es gibt AI Model "Face Recognition" zum drauflaufen auf Python. Nur 
diesmal suche ich Noise Recognition

Beitrag #6392594 wurde von einem Moderator gelöscht.
von Marek W. (marek_w)


Bewertung
5 lesenswert
nicht lesenswert
Hi!

Ich denke diese Kaggle Competition hat genau das gemacht was Du vorhast:
https://www.kaggle.com/c/freesound-audio-tagging-2019

Dort einfach unter "Notebooks" (nach Best Score sortieren) einen 
Prototypen raussuchen. Z.b. 
https://www.kaggle.com/sailorwei/fat2019-2d-cnn-with-mixup-lb-0-673

Fahrzeuge und Stimmen sind sogar schon im Datensatz dabei.

Fahrzeuggeräusche:
- Car_passing_by
- Race_car_and_auto_racing
- ...

Stimmen:
- Male_singing
- Male_speech_and_man_speaking
- Female_singing
- Female_speech_and_woman_speaking
- ...

Das kannst Du dann auch mit eigenen Sounds erweitern. Ich denke dort 
findest Du alles an informationen was Du brauchst.

Beitrag #6392603 wurde von einem Moderator gelöscht.
Beitrag #6392608 wurde von einem Moderator gelöscht.
Beitrag #6392628 wurde von einem Moderator gelöscht.
Beitrag #6392638 wurde von einem Moderator gelöscht.
Beitrag #6392647 wurde von einem Moderator gelöscht.
Beitrag #6392680 wurde von einem Moderator gelöscht.
von Kybernetiker X. (kybernetiker)


Bewertung
1 lesenswert
nicht lesenswert
Der Beitrag von Marek W. ist die konstruktivste. Vielen Dank.

von Marek W. (marek_w)


Bewertung
0 lesenswert
nicht lesenswert
Gerne! War ja auch der einzige der wirklich probierte Deine Frage zu 
beantworten ;-) Verstehe auch nicht warum die Frage downvotes kriegt, 
ich fand sie interessant. Viel Erfolg!

von reality resistance (Gast)


Bewertung
-2 lesenswert
nicht lesenswert
Kybernetiker X. schrieb:
> Der Beitrag von Marek W. ist die konstruktivste.

Naja, ich sehe da einen Unterschied zwischen hilfreich und konstruktiv.
Hilfreich ist eine nachbausichere Bauanleitung, als konstruktiv im Sinne 
von unterstützend für eigene creative-konstruktive Arbeiten eher nicht.

Konstruktiv ist dagegen, statt dem gehypten KI-Ansatz den klassischen 
Ingenieursansatz mit Spectrumserzeugung (FFT) und Analyse auf klassische 
Fahrzeugklangcharakteristik (ausgeprägter Dopplereffekt, 
Frequenzmodulation mit Drehzahl)
oder Sprachscharakteristike (begrenzter Frequenzumfang ja nach 
männlicher oder weiblicher Tonlage; Anlaute; ...) zu verfolgen.

von Rolf M. (rmagnus)


Bewertung
0 lesenswert
nicht lesenswert
Kybernetiker X. schrieb:
> Ich such ein KI Modell zur Unterscheidung von Menschenstimme und
> Fahrzeuggeräusche. Es liefert das Ergebnis 1 oder 0, je nach dem wie es
> detektiert wurde, ob Menschen zu hören sind oder ein brummendes LKW sich
> nähert.

Und was soll passieren, wenn ein PKW kommt? Was, wenn sich ein LKW bei 
gleichzeitigem "Menschengelaber" nähert? Was, wenn der LKW nicht brummt, 
sondern surrt, weil er elektrisch ist? Soll jedes nur erdenkliche 
Geräusch in eine dieser zwei Kategorien unterteilt werden?
Normalerweise hat so ein DNN (deep neural network, ich nehme an, das 
meinst du mit "KI Modell") für jede Art an zu erkennendem Muster einen 
separaten Ausgang, bei dem ein Wert zwischen 0 und 1 rauskommt, der die 
Wahrscheinlichkeit beschreibt, dass es sich um dieses Muster handelt.

Stan schrieb im Beitrag #6392594:
> Wow - sage und schreibe ein Beitrag der wenigstens etwas mit der Frage
> zu tun hat und so formuliert ist wie es sich unter zivilisierten
> Menschen gehört.

Im Gegensatz zu deinem Posting, das leider gar nichts damit zu tun hat.

Beitrag #6393544 wurde von einem Moderator gelöscht.
Beitrag #6393556 wurde von einem Moderator gelöscht.
Beitrag #6393591 wurde von einem Moderator gelöscht.
Beitrag #6393623 wurde von einem Moderator gelöscht.
von Schlaumaier (Gast)


Bewertung
-3 lesenswert
nicht lesenswert
das ist Kinderleicht. Wenn man Coden kann.

Man mit Audacity oder wenn auch immer 2 Aufnahmen. In der einen labern 
Menschen und in der 2 sind Maschinengeräusche.

Nun schau dir die Kurven an. Die mit den Menschen ist zackig wie ein 
Sägeblatt. Die von der Maschine ist glatt. Der Rest ist nur noch 
Parameter festsetzen und dann die Aufnahme analysieren.

Wenn man was von Akustik und deren Verarbeitung versteht, sollte das 
kein großes Ding sein. Wenn man es nicht tun (wie ich) dann macht man es 
von Hand. ;)

Beitrag #6393980 wurde von einem Moderator gelöscht.
von Andreas S. (andreas) (Admin) Benutzerseite Flattr this


Bewertung
0 lesenswert
nicht lesenswert
Stichwort „Voice Activity Detection“, damit findet man z.B. auch 
folgendes, was sehr vernünftig aussieht:

https://github.com/wiseman/py-webrtcvad

reality resistance schrieb:
> Konstruktiv ist dagegen, statt dem gehypten KI-Ansatz den klassischen
> Ingenieursansatz mit Spectrumserzeugung (FFT) und Analyse auf klassische
> Fahrzeugklangcharakteristik (ausgeprägter Dopplereffekt,
> Frequenzmodulation mit Drehzahl)
> oder Sprachscharakteristike (begrenzter Frequenzumfang ja nach
> männlicher oder weiblicher Tonlage; Anlaute; ...) zu verfolgen.

Das ist in diesem Jahrhundert sicherlich kein sinnvoller Ansatz mehr, 
weder für Hobby, noch professionell.

von reality resistance (Gast)


Bewertung
0 lesenswert
nicht lesenswert
Andreas S. schrieb:
> reality resistance schrieb:
>> Konstruktiv ist dagegen, statt dem gehypten KI-Ansatz den klassischen
>> Ingenieursansatz mit Spectrumserzeugung (FFT) und Analyse auf klassische
>> Fahrzeugklangcharakteristik (ausgeprägter Dopplereffekt,
>> Frequenzmodulation mit Drehzahl)
>> oder Sprachscharakteristike (begrenzter Frequenzumfang ja nach
>> männlicher oder weiblicher Tonlage; Anlaute; ...) zu verfolgen.
>
> Das ist in diesem Jahrhundert sicherlich kein sinnvoller Ansatz mehr,
> weder für Hobby, noch professionell.

Das ist mindestens Geschmackssache.
Wer sich (ob im Hobby oder im Beruf) daran interessiert ist, die 
Verfahren des 20 Jahrhunderst kennenzulernen, für den macht es schon 
Sinn die Technik des 20 Jhr im Selbstversuch zu erforschen.

Und es ist nicht davon auszugehen, das das das künstliche Neuronale Netz 
prinzipiel andersmacht. Nur das die Übertragung in den Frequenzbereich 
und anschließende Clusterung nicht im Algorithmus direkt sichtbar ist.

Interessant könnte in diesen Zusammenhang die Verwendung von KI zur 
Suche nach Fast Radio Bursts sein, das hier kurz andiskutiert wurde:
Beitrag "Maschinelles Lernen schlägt Spectrumanalyzer!"

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.