Forum: Digitale Signalverarbeitung / DSP / Machine Learning KI-Modelle Deep Dive


von Christoph M. (mchris)


Lesenswert?

Es ist äußerst spannend, sich ein wenig mit den Innereien der KI-Modell 
zu befassen.

Ein Artikel auf Heise befasst sich mit den Eigenschaften der Quen3.5 
Modelle von Allibaba:

https://www.heise.de/hintergrund/Qwen3-5-Familie-Feuerwerk-neuer-LLMs-von-Alibaba-11209718.html

Scheinbar hat Quen ordentlich an der Architektur gedreht und den 
Attention Mechanismus teilweise durch die Mamba-Architektur ersetzt.

Was ist hier bezüglich Signalverarbeitung interessant?

Die Mamba Architektur

https://www.ibm.com/de-de/think/topics/mamba-model

verwendet hier ein Zustansraumodel. So etwas kennt der Ein- oder Andere 
vom Kalman-Filter.

von Rolf (audiorolf)


Lesenswert?

Was ist denn jetzt die Aussage des Textes?

von Bradward B. (Firma: Starfleet) (ltjg_boimler)


Lesenswert?

> Was ist denn jetzt die Aussage des Textes?

Letzlich die selbe wie die über das Grundprinzip von künstlichen 
neuronalen Netzen:
Eine KI kann nur die Probleme lösen, die sie (intern) repräsentieren 
kann.

Ist jetzt recht abstrakt formuliert, aber gibt eben einen Hinweis 
darauf, bei welchen Klassen von Probleme eine KI versagen muß, weil sie 
eben die Struktur der Information nicht adequat wiedergeben kann.

Bspw. kann eine KI eben lediglich "Beschreibungen" zu elektroniaschen 
Schaltungen intern strukturieren, aber nicht das Netzwerk aus 
Bauelementen und die darauf aufgeprägten oder aufprägbaren u(t) und i(t) 
Relationen. Deshalb kann sie zwar sinnvoll klingende "neue" Texte dazu 
generieren, aber keine sinnvolle neue Schaltungen konstruieren.
(siehe auch:  Beitrag "Gemini und Elektronik" )

Ist halt ein bißchen wie die Mathematiker anfang des 20. Jhr. und das 
Hilber-Programm, der Versuch eine vollständige Mathematik zu 
konstruieren um quasi "automatisch" alles beweisen zu können.

* https://de.wikipedia.org/wiki/Principia_Mathematica
* https://de.wikipedia.org/wiki/Hilbertprogramm

Das dieses Streben nach "Automatismus"  scheitern musste, haben geniale 
Köpfe wie Kurt Gödel, Alan Turing, John von Neumann und andere erst 
Jahre später erkannt. Angesichts des aktuellen Hypes glaubt man diese 
Erkenntnis wieder vergessen.

Wohl weil sich kaum einer bemüht zu verstehen, was eine KI im Inneren 
zusammenhält. ;-)

: Bearbeitet durch User
von Christoph M. (mchris)


Lesenswert?

Rolf schrieb:
> Was ist denn jetzt die Aussage des Textes?

Dass es eine ständige Weiterentwicklung der Modelle gibt, die mit 
denselben Resourcen schneller und leistungsfähiger werden.

Für mich war hier im besonderen der Hinweis auf das Mamba-Modell 
interessant, weil es das schon lange bekannte Zustandsraummodell 
abwandelt und für das LLM benutzt.

https://www.ibm.com/de-de/think/topics/mamba-model

Schade ist, dass dort nicht genauer beschrieben wird, wie die Matrizen B 
und C an die aktuellen Tokens angepasst werden.

Man sieht aber sehr schön, wie die Algorithmen innerhalb der LLMs immer 
komplexer und ausdifferenzierter werden.

von Bradward B. (Firma: Starfleet) (ltjg_boimler)


Lesenswert?

> https://www.ibm.com/de-de/think/topics/mamba-model
>
> Schade ist, dass dort nicht genauer beschrieben wird, wie die Matrizen B
> und C an die aktuellen Tokens angepasst werden.
>
> Man sieht aber sehr schön, wie die Algorithmen innerhalb der LLMs immer
> komplexer und ausdifferenzierter werden.

IMHO bleibt es aber "Mustererkennung" und eine, die extrem mehr Leistung 
braucht als effiziente DSP/embedded devices bieten können. Halt das 
übliche Dilemma von "AI on the edge":

https://www.emft.fraunhofer.de/de/kompetenzen/systemloesungen-ki/ai-on-the-edge.html

Ich glaube da ersmal nicht, das "Mamba" da in Sachen "Mehr Cleverness" 
weiterhilft.

: Bearbeitet durch User
von Christoph M. (mchris)


Lesenswert?

Falls man selbst Experimente mit verschiedenen Modellen machen will, ist 
eine Graphikkarte mit entsprechender KI-Leistung nützlich.
Hier ist die Vergleichstabelle der NVIDIA-Graphikkarten:
https://www.nvidia.com/en-us/geforce/graphics-cards/compare/

von Markus K. (markus-)


Lesenswert?

Bradward B. schrieb:
>> Man sieht aber sehr schön, wie die Algorithmen innerhalb der LLMs immer
>> komplexer und ausdifferenzierter werden.
>
> IMHO bleibt es aber "Mustererkennung" und eine, die extrem mehr Leistung
> braucht als effiziente DSP/embedded devices bieten können. Halt das
> übliche Dilemma von "AI on the edge":
>
> 
https://www.emft.fraunhofer.de/de/kompetenzen/systemloesungen-ki/ai-on-the-edge.html

Aber für Mustererkennung tut sich doch schon einiges. Zum einen bekommen 
gerade viele Controller SIMD-Befehle (z.B. ARM Helium) und zum anderen 
findet man kleine NPUs, z.B. beim STM32N6, die da 0,6 TOPS macht und mit 
ca. 0,2W angegeben ist.

> Ich glaube da ersmal nicht, das "Mamba" da in Sachen "Mehr Cleverness"
> weiterhilft.

Mamba hilft für das Problem der Kontextlänge. Damit die LLMs den Anfang 
des Gesprächs nicht vergessen bzw. längere Dokumente lesen können.

von J. S. (engineer) Benutzerseite


Lesenswert?

Bradward B. schrieb:
> MHO bleibt es aber "Mustererkennung" und eine, die extrem mehr Leistung
> braucht als effiziente DSP/embedded devices bieten können. Halt das
> übliche Dilemma von "AI on the edge":

und dieses Dilemma wird bleiben. Ich sehe dieses Thema inzwischen an 
jeder Ecke, wo man probiert, mit allgemeinen einfachen Ansätzen zu 
komplizierten und genauer Ergebnissen zu gelangen, indem man das System 
eintrainiert oder sich selber eintrainieren lässt. Theoretisch kann es 
alles können, aber der Aufwand ist vom Umfang und der Zeit oft nicht zu 
treiben, sodaß es das effektiv und zeitnah kann. Werden vorgearbeitete 
Lösungen und Annahmen von erfahrenen Ingenieuren eingearbeitet, die den 
gigantischen Möglichkeitsraum der Lösungen einschränken, ist das 
schneller auf einem dedizierten Mindestniveau und sehr lange auch besser 
- ... solange zwei Dinge gelten:

1) Die Annahmen über die Lösungen sind grundsätzlich richtig und 
enthalten keine Fehler in der Umsetzung

2) Die Lösungen enthalten keine Lücken oder sind für solche tolerant, 
d.h. sie schränken das mögliche Optimum nicht fälschlicherweise ein oder 
haben das Optimum übersehen.

Gerade bei Punkt 2 kann eine AI helfen, das "Übersehen haben" 
auszumerzen, falls geschehen und durch Automatismen selbiges zu 
verifizieren.

Es bleibt aber beim Thema Aufwand: Damit die AI eine gute Lösung liefern 
kann, braucht sie Infos und Randbedingungen. Je komplierter und 
umfangreicher, desto überproportional aufwändiger wird es, diese zu 
formulieren und mitzugeben.

Wie umfangreich muss ein set von Randbedingungen für MATLAB sein, damit 
es eine VHDL-Schaltung für einen FPGA bauen kann? Wie umfangreich muss 
z.B. ein Lastenheft für eine Elektronik sein, damit ein AI die Schaltung 
baut? Wie lange wird benötigt das alles im Detail einzugeben und zu 
formulieren, daß man wirklich ein Optimum bekommt? Schon dann, wenn es 
um strategische Nutzung von Bauteilen geht, um Lieferthemen zu 
handhaben, sich an die eigene Produktion anzupassen oder Freigaben von 
der GL zubekommen, erwächst sofort ein Wust an Informationen, die man 
eintreiben müsste.

Bei vielen Lösungen in der Informationsverarbeitung, wo heute 
reflexartig nach AI-Ansätzen geschrien wird, ist das Erfahrungsspektrum 
der klassischen Ersteller so groß, daß man zielführende Lösungen von der 
Stange nehmen und modifizieren kann, welche die von einer AI erst einmal 
weit in den Schatten stellen. AI-Lösungen brauchen auch immer eine 
Trainings-strategie, die unvollständig sein kann und selbst eine mit 
allen verfügbaren Lösungen trainierte AI kann sich nachweislich bei neu 
zu findenden Lösungspunkten gewaltig verrennen - mitunter sogar eher und 
mehr, als der humane Denkerkreis es täte.

Allein, wenn man schon mit AI oder MATLAB einen speziellen TP-Filter 
entwerfen lässt, rennen beide in die Wiese und liefern Standard oder 
völlig falsches oder man probiert stundenlang, dem tool beizubringen 
worum es eigentlich geht.

von Bradward B. (Firma: Starfleet) (ltjg_boimler)


Lesenswert?

> Mamba hilft für das Problem der Kontextlänge. Damit die LLMs den Anfang
> des Gesprächs nicht vergessen bzw. längere Dokumente lesen können.

Ist halt die Frage wieviel "Umgebung" bei Klassifikationen notwendig 
ist. Beispielsweise bei Kantenerkennung, ob man sich nur die 
Nachbar-pixel anschaut oder auch die von halben Meter rechts und links.

Mamba schien eher beim Speicherbedarf zu helfen, aber da muss man 
vielleicht noch tiefer einsteigen.

> Ich sehe dieses Thema inzwischen an
> jeder Ecke, wo man probiert, mit allgemeinen einfachen Ansätzen zu
> komplizierten und genauer Ergebnissen zu gelangen, indem man das System
> eintrainiert oder sich selber eintrainieren lässt.

Das war vor 30/40 Jahren als KI noch "Künstliches Neuronales Netz" 
hiess, auch nicht viel anders und wurde gerade als der Benefit für den 
den Einsatz versprochen: Man muss die konkrete Lösung nicht kennen, man 
trainiert einfach (brute-force).

Es gibt aber auch Anwendunge,n wo es den Anschein hat, das man sich 
vorher überlegt hat, was unter den beschränkten Umständen eine AI 
schaffen könnte.
Beispielsweise im Zusammenhang mit Cyberresilance eine Eindringling- 
(Intrusion-) detection einer Insulinpumpe bei der die KI (ca 20kB Code) 
Runtime-Zeitmarken aus den subroutinen analysiert.
Die Grundannahme ist, das sich in einem komprimitierten Systen der 
zeitliche Ablauf der subroutinen signifikant zu dem Zeitverhalten in 
einem nicht komprimittierten System unterscheidet.

> - ... solange zwei Dinge gelten:
Ja, der sinnvolle Einsatz von KI ist an bestimmte Bedingungen geknüpft. 
Aber von AI wird auch gerne mal erwartet das sie die 
Universal-Wundertüte für überforderte Halbweise ist.

: Bearbeitet durch User
von Christoph M. (mchris)


Lesenswert?

Bradward B. schrieb:
> Ja, der sinnvolle Einsatz von KI ist an bestimmte Bedingungen geknüpft.
> Aber von AI wird auch gerne mal erwartet das sie die
> Universal-Wundertüte für überforderte Halbweise ist.

Die Überschrift dieses Threads ist "KI-Modelle Deep Dive" und der Thread 
befindet sich im DSP-Forumsteil. Hier geht es nicht um allgemeines 
KI-Meinungsgelaber ( da gibt es schon einige Threads im "Offtopic Forum" 
), sondern um Algorithmik, Rechenverfahren, Modelle und deren konkreter 
Ausführung sowie deren Fortschritte.

von Markus K. (markus-)


Lesenswert?

Bradward B. schrieb:
>> Mamba hilft für das Problem der Kontextlänge. Damit die LLMs den Anfang
>> des Gesprächs nicht vergessen bzw. längere Dokumente lesen können.
>
> Ist halt die Frage wieviel "Umgebung" bei Klassifikationen notwendig
> ist. Beispielsweise bei Kantenerkennung, ob man sich nur die
> Nachbar-pixel anschaut oder auch die von halben Meter rechts und links.
>
> Mamba schien eher beim Speicherbedarf zu helfen, aber da muss man
> vielleicht noch tiefer einsteigen.

Da muss man unterscheiden: Es gibt Netze z.B. zur Objektdetektion (auf 
Bildern von Überwachungskameras Menschen und Autos erkennen). Diese 
Netze gibts schon länger und die haben typischerweise ein paar Millionen 
Parameter. Die kann man auch durchaus auf Mikrocontrollern laufen 
lassen.

Dann sind in letzten Jahren LLMs aufgekommen. Da haben selbst die 
kleinen Netze ein paar Milliarden Parameter und die großen 500 
Milliarden.

Aber darum gehts bei Mamba nichtmal: Die Sprachmodelle müssen wissen, 
wie die Beziehungen der Wörter untereinander sind. Also dass z.B. ein 
Satz am Ende des Textes sich auf den Anfang bezieht, oder wenn es um 
zwei Männer geht, wer denn jetzt gerade mit "er" gemeint ist. Das 
speichern sie klassisch in einer quadratischen Matrix mit der 
Kontextlänge als Seitenlänge (jedes Wort kann sich auf jedes andere Wort 
beziehen). Bei ChatGPT 3.5 war die Kontextlänge 4000 Token lang, d.h. 
die Matrix hat 4000² = 1,6 Millionen Einträge. Token sind so eine 
Mischung aus Silben und Wörtern und Satzzeichen zählen auch. Leider sind 
4000 Tokens sehr wenig, denn da geht das gesamte Gespräch (beide Seiten) 
mit ein. Das führt dann bei einem längeren Dialog dazu, dass sich die KI 
nicht mehr an bereits gesagtes erinnert, weil es aus dem Kontext 
rausgefallen ist und die Diskussion dreht sich dann im Kreis.

Macht man die Kontextlänge aber sehr viel größer, dann wird man mit 
dieser quadratischen Matrix nicht mehr glücklich. Bei 1 Mio Tokens hätte 
die Matrix ja eine Billion Einträge. Genau da kommt Mamba ins Spiel, in 
dem sie eben keine quadratische Matrix nehmen. Es gibt aber auch andere 
Ansätze. Man kann z.B. regelmäßig Zusammenfassungen machen, damit der 
Kontext klein bleibt.

Für die klassische Objektdetektion oder andere Netze auf 
Mikrocontrollern bringt das aber glaub nichts.

von Rolf (audiorolf)


Lesenswert?

Markus K. schrieb:
> Man kann z.B. regelmäßig Zusammenfassungen machen, damit der
> Kontext klein bleibt.

oder von vorn herein angepasst KI-Modelle nehmen, die an der jeweiligen 
Aufgabe ausgerichtet sind?

von Christoph M. (mchris)


Lesenswert?

Markus K. schrieb:
> Aber darum gehts bei Mamba nichtmal: Die Sprachmodelle müssen wissen,
> wie die Beziehungen der Wörter untereinander sind. Also dass z.B. ein
> Satz am Ende des Textes sich auf den Anfang bezieht, oder wenn es um
> zwei Männer geht, wer denn jetzt gerade mit "er" gemeint ist. Das
> speichern sie klassisch in einer quadratischen Matrix mit der
> Kontextlänge als Seitenlänge (jedes Wort kann sich auf jedes andere Wort
> beziehen). Bei ChatGPT 3.5 war die Kontextlänge 4000 Token lang, d.h.
> die Matrix hat 4000² = 1,6 Millionen Einträge. Token sind so eine
> Mischung aus Silben und Wörtern und Satzzeichen zählen auch. Leider sind
> 4000 Tokens sehr wenig, denn da geht das gesamte Gespräch (beide Seiten)
> mit ein. Das führt dann bei einem längeren Dialog dazu, dass sich die KI
> nicht mehr an bereits gesagtes erinnert, weil es aus dem Kontext
> rausgefallen ist und die Diskussion dreht sich dann im Kreis.

OpenClaw benutzt hier wohl einen Trick: Es speichert die alten 
Konversationen in Markdown-Files. Scheinbar durchsucht es bei neuen 
Konversationen diesen Speicher und injiziert den passenden Kontext dann 
ins Prompt.

von Markus K. (markus-)


Lesenswert?

Rolf schrieb:
> Markus K. schrieb:
>> Man kann z.B. regelmäßig Zusammenfassungen machen, damit der
>> Kontext klein bleibt.
>
> oder von vorn herein angepasst KI-Modelle nehmen, die an der jeweiligen
> Aufgabe ausgerichtet sind?

Mit "man" meinte ich die Entwickler der KI. Bei github copilot geschieht 
das z.B. automatisch.

Es ist einfach ein sehr prinzipielles Problem, dass viele 
Aufgabenstellungen viel Kontext brauchen.

von Markus K. (markus-)


Lesenswert?

Christoph M. schrieb:
> OpenClaw benutzt hier wohl einen Trick: Es speichert die alten
> Konversationen in Markdown-Files. Scheinbar durchsucht es bei neuen
> Konversationen diesen Speicher und injiziert den passenden Kontext dann
> ins Prompt.

Das können die anderen auch, also z.B. ChatGPT. Das Copilot im MS Teams 
extrahiert Wissen und merkt sich das. Ich habe es aber bei beiden 
abgeschaltet, weil er da durcheinanderkommt, wenn man zu ähnlichen 
Themen fragt. Ich arbeite z.B. mit zwei verschiedenen SoCs mit 
Cortex-A53 und wenn ich dann zuerst was zu dem einen Frage und eine 
Woche später zu dem anderen, dann glaubt er, das sei der erste. Das 
könnte man vielleicht umgehen, wenn man konkreter sagt, worum es geht, 
aber das war mir zu umständlich.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.