Forum: PC-Programmierung Erfahrungen mit AI-Coding


Announcement: there is an English version of this forum on EmbDev.net. Posts you create there will be displayed on Mikrocontroller.net and EmbDev.net.
von Ein T. (ein_typ)


Lesenswert?

Jens B. schrieb im Beitrag #8031588:
> Ach ja, auf Dummheit hinweisen ist heutzutage ja voll schlecht.

Meist werden solche Skripte von genau dem Projekt angeboten, dessen 
Software man ohnehin auf seinem System ausführen möchte, was man 
sicherlich nicht tun würde, wenn man dem Projekt oder der Software 
mißtraut. Wer derartige Basics nicht weiß, wird sie hier nicht lernen 
und höchstwahrscheinlich ohnehin auch keine Experimente mit lokalen LLMs 
machen, die hier das Thema sind.

Insofern ist dieser Thread nicht der richtige Ort für Deinen Hinweis, 
weitere Diskussionen darüber bitte ich in einen eigenen Thread zu 
verlegen.

von Rene K. (xdraconix)


Lesenswert?

Markus K. schrieb:
> Nein. Diese Netze haben immer eine Trainings- und eine Ausführungsphase
> und in letzterer lernen sie nicht dazu.

Was aber durchaus interessant wäre. Geht das? Kann man freie LLM weiter 
anlernen? Gerade für Sachen die man selbst macht fände ich das durchaus 
interessant.

von Mathias M. (matjes)


Lesenswert?

Rene K. schrieb:
> Was aber durchaus interessant wäre. Geht das? Kann man freie LLM weiter
> anlernen? Gerade für Sachen die man selbst macht fände ich das durchaus
> interessant.

Das kommt aufs Modell drauf an. Aber ja, das kann man durchaus machen. 
Nennt sich finetuning. Gibt es haufenweise von anderen. Teilweise um 
Zensierung oder andere Beschränkungen zu umgehen. Oder normale Modelle 
wurden zum Coding Modell spezialisiert. Dafür braucht man dann aber mehr 
Speicher und Rechenleistung. Wer also nicht einige zig-hundert k€ in 
GPU-power hat, muss das per Cloud machen.

von Mathias M. (matjes)


Lesenswert?

Nochmal zu lokalen Modellen. Gerade ist Gemma 4 von Google 
veröffentlicht worden. Vier Versionen wurden veröffentlicht:
26B-A4B
31B
E4B
E2B

Die E4/2B Modelle sind fürs Handy gedacht.
Das 26B Modell läuft auf meiner 16GB RX9070 ziemlich schnell... na ja, 
ziemlich quantisiert natürlich (gemma-4-26B-A4B-it-UD-IQ4_NL), damit es 
in den ram passt. Aber dann bekomm ich 2000 t/s Prompt Processing und 95 
t/s Text Generation. Zum Vergleich bei meinem DDR4 System ohne GPU liege 
ich bei <8 t/s PP & <2 t/s TG.

Wer das nur ansatzweise ernsthaft nutzen will, ist mit 2t/s nicht 
zufrieden. Klar, wenn man einen wirklich guten Anforderungskatalog 
geschrieben hat, kommt am nächsten Morgen vielleicht auch mit 2t/s was 
sinnvolles raus. Aber zumindest ich muss immer wieder mal was 
nachbessern lassen. Dann immer 50x so lange zu warten ist absoluter 
Unsinn.

Und die Karte kostet ja auch nur 550€. (Aber 16GB sind ja auch nicht so 
viel.)

Obwohl es laut mehreren Berichten noch ein paar Probleme mit Gemma4 
geben soll, scheint mir das ein recht fähiges Modell zu sein.
edit
Zumindest llama.cpp hat die größten Probleme behoben. Dauert dann etwas, 
bis ollama die version übernommen hat.

: Bearbeitet durch User
von Mathias M. (matjes)


Lesenswert?

Christoph M. schrieb:
> Hat jemand schon mal KoboldCPP ausprobiert?
> Was ist davon zu halten?
> https://koboldcpp.com/

Koboldcpp ist auch nur ein llama.cpp Fork. Ich weiß jetzt nicht genau, 
was da anders dran ist. Anderes WebUI. Die schreiben "Optimized C++ 
Backend", ich glaube aber kaum, dass die llama.cpp irgendwie voraus 
sind.

Der letzte Commit auf Github ist 2 Wochen her. In LLM-Jahren ist das 
eine Ewigkeit. Llama.cpp hatte heute schon 8 Commits. Jetzt ist die pure 
Anzahl der Commits nicht besonders aussagekräftig, aber Llama.cpp 
unterstützt halt neue Modelle, kobold braucht dafür immer länger.

Sowieso, (lokale) LLMs bewegen sich rasend schnell. Klar kann man auch 
ein 6 Monate altes Modell nutzen, aber meistens gibt es halt was 
besseres. Wer sich da wirklich für interessiert, sollte sich irgendnen 
Blog oder so suchen oder besser täglich in ner Community wie
https://old.reddit.com/r/LocalLLaMA/
vorbeischauen...

von 1N 4. (1n4148)


Lesenswert?

> Nochmal zu lokalen Modellen. Gerade ist Gemma 4 von Google
> veröffentlicht worden. Vier Versionen wurden veröffentlicht:
> 26B-A4B
> 31B

Nice. Laufen mit ~60t/s bzw. 10t/s auf dem Strix. Gleich mal in den 
Multimodel-Agent einbinden.

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Nochmal (fast) zum eigentlichen Thema zurück, diesmal nicht "Coden" 
sondern allgemein die Verlässlichkeit der Aussagen von LLM.

Ich hab mir einen kleinen Desktop-Galvo-Laser gegönnt, weil ich damit 
Platinen direkt belichten will oder - etwas einfacher - einen Schutzlack 
vor dem Ätzen wegbrennen. Es handelt sich um einen "Longer Nano 6W" - 
quasi ein Auslaufmodell (war deshalb billig) und für den Zweck mit mehr 
als genug Leistung.

Nun muss man das Ding ja auch ansteuern und ich bin Mac-User. Das fängt 
schon mit einem geeigneten USB-Serial-Driver an (das Elend kenne ich von 
diversen Arduino- und ESP-Modellen) und endet bei der quasi 
Standard-Software "Lightburn" (die für sich gesehen absolut Spitze ist). 
Leider gibt es keine "fertige" und zuverlässig funktionierende Konfig 
für meinen Laser.

Lange Rede kurzer Sinn: Ich habe sage und schreibe gut 2 Tage benötigt, 
trotz intensiver KI-Unterhaltung (ChatGPT, Grok, Gemini ...). Die haben 
im Detail aber alle nur Sch... erzählt. Man möchte doch meinen, diese 
Modelle haben Zugang zu den Hersteller-Dokumenten ... und trotzdem 
(fast) nur dämliche Antworten (so auf dem Niveau: "haben sie auch den 
Stecker drin?"), jedenfalls nichts Substanzielles.

Am Ende hab ich mich selber durchgekämpft .. das Ding läuft nun.

von 1N 4. (1n4148)


Lesenswert?

> Nochmal (fast) zum eigentlichen Thema zurück, diesmal nicht "Coden"
> sondern allgemein die Verlässlichkeit der Aussagen von LLM.

Nochmal. Du bekommst damit nicht die ultimative Wahrheit. Nur die 
Antwort die am wenigsten falsch aus Sicht des Modelles ist.

von Ein T. (ein_typ)


Lesenswert?

Frank E. schrieb:
> Nochmal (fast) zum eigentlichen Thema zurück, diesmal nicht "Coden"
> sondern allgemein die Verlässlichkeit der Aussagen von LLM.

In Wirklichkeit IST Coden das eigentliche Thema dieses Threads, 
insbesondere im Zusammenhang mit lokalen Modellen. Bitte klär' Deine 
Fragen woanders.

von Rbx (rcx)


Lesenswert?

Frank E. schrieb:
> Lange Rede kurzer Sinn: Ich habe sage und schreibe gut 2 Tage benötigt,
> trotz intensiver KI-Unterhaltung (ChatGPT, Grok, Gemini ...). Die haben
> im Detail aber alle nur Sch...

Ich hatte heute auch Probleme, einen Dust SF Shortfilm zu finden, bzw. 
wie dessen Titel das überhaupt war. Die KI hatte aber eine perfekte 
Beschreibung von diesem Shortfilm parat - nur wurde, trotz der guten 
Beschreibung, ständig auf andere Filme mit völlig anderen Inhalt 
hingewiesen. Glücklicherweise hatte ich noch einen Link auf einem 
anderen Rechner.. Aber beispielsweise auch bei Problemen mit Skyrim 
bringen die auch so einiges durcheinander - Jetzt sehe ich eigentlich 
schon ein dreidimensionales Problem. Die KI Flüsterei auf der einen 
Seite + die fehlende Ausbildung oder die fehlenden Hintergrundinfos, die 
man mitbringt - Auf der anderen Seite den Fortschritt der KI, wenn die 
Zusammenarbeit nicht richtig läuft - und der dritte Teil wäre dann 
nochmal den Unsinn der KI zu erkennen - auch wenn der nicht so 
offensichtlich ist.

von Rene K. (xdraconix)


Lesenswert?

Frank E. schrieb:
> Nochmal (fast) zum eigentlichen Thema zurück, diesmal nicht "Coden"
> sondern allgemein die Verlässlichkeit der Aussagen von LLM.

Das Thema des Threads hier IST "Coden" mit AI.

Rbx schrieb:
> Ich hatte heute auch Probleme, einen Dust SF Shortfilm zu finden

Ihr seid hier beide falsch, geht doch einfach in den OT KI Thread, der 
ist auch schon gekapert - dort könnt ihr euch schwallhaft darüber 
auslassen was die KI kann und nicht kann - abseits von AI-Coding!

Eure Meinungen zu Filmsuchen oder Treibersuchen hat hier nichts zu 
suchen!

von Alexander (alecxs)


Lesenswert?

"coding" wäre präziser - gekotet haben nun alle in den Thread

Beitrag #8032041 wurde von einem Moderator gelöscht.
von Mathias M. (matjes)


Lesenswert?

Ich hab jetzt viel im Thread über meine Erfahrung mit lokalen Modellen 
geschrieben. Irgendwie fühle ich mich verpflichtet darauf hinzuweisen, 
dass ich keine lokalen Modelle produktiv einsetze.

Ich teste viel, lass was laufen und so und hab mittel-gute Hardware. 
Aber reproduzierbar gute Ergebnisse bekomme ich noch nicht.

Ich habe einen Standardtest, das ist ein Kommandozeilenprogramm dass ich 
mir mal von ner halbwegs großen KI hab schreiben lassen. Das hab ich mir 
auch dokumentieren lassen und geb diese Doku nem lokalen Modell und sag 
er soll das so implementieren. Ich erwarte so 15kb / ~500 loc Rust code 
+ cargo.toml & git commits. Meine kleinen lokalen Modelle (nur 16GB 
VRAM) machen das manchmal korrekt, es gehört aber durchaus Glück oder so 
dazu. Manchmal verfangen die sich in ner Endlosschleife, die Ausführung 
bricht aus unbekannten gründen ab, oder sie schreiben so langen 
komplexen Code, dass sie die Compilerfehler nie bereinigt bekommen. 
Manchmal fängt es schon damit an, dass sie die zur Verfügung gestellten 
tools nicht richtig benutzen, manchmal ist es erst nach 10 Minuten 
offensichtlich, dass nichts gescheites bei rumkommt. Manchmal bekomm ich 
aber auch das gewünschte Ergebnis. Aber das gleiche Modell läuft mal 
gut, mal nicht so...

Ich nutze weitgehend Opencode als Agent. Teilweise kann das Problem also 
auch da liegen. Ansonsten bin ich von Ollama jetzt auf Llama.cpp 
umgestiegen, weil es da den Turboquant Fork gibt, der den Context-Cache 
besser quantisieren kann. Bei gleichem Speicherbedarf ist da ein 3-4x 
größeres Kontextfenster möglich. Laut Paper ohne nennenswerten 
Genauigkeitsverlust.

Wie auch immer. Ich überlege mir auf der Arbeit dennoch eine R9700 mit 
32GB Speicher kaufen zu lassen...

von Rene K. (xdraconix)


Lesenswert?

Rbx schrieb im Beitrag #8032041:
> So als könnte man das eben mal sauber trennen

Man kann selbstverständlich sauber trennen:

Suche nach einem Film || AI-Coding

Das eine hat mit dem anderen nichts zu tun, also begib dich mit dem 
Zeugs, was nichts mit AI-Coding zu tun hat bitte hierher:

Beitrag "Programmieren mit KI"

von Ein T. (ein_typ)


Lesenswert?

Rbx schrieb im Beitrag #8032041:
> So als könnte man das eben mal sauber trennen.

Natürlich kann man das.

> offenen Diskussiongeist hier

Die Diskussion in diesem Thread ist auf dessen Thema "Coding mithilfe 
lokaler LLMs" beschränkt. Alles andere ist ausdrücklich unerwünscht.

> Framing [...]  Diskussionsunterdrückung: [...] Hexenverbrenner

Bitte such' Dir endlich professionelle Hilfe, verwirrter Schlumpf.

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Rene K. schrieb:
> Frank E. schrieb:
>> Nochmal (fast) zum eigentlichen Thema zurück, diesmal nicht "Coden"
>> sondern allgemein die Verlässlichkeit der Aussagen von LLM.
>
> Das Thema des Threads hier IST "Coden" mit AI.
>


Ja ja, schon gut.

Am Ende war die Lösung in einer JSON-Datei mit passenden Parametern 
versteckt. Ist das nicht auch irgendwie "Coding"? :-)

von Markus K. (markus-)


Lesenswert?

Was mich gerade sehr stört sind diese ungeschickten und sprunghaften 
Lösungsansätze.
Ich bin gerade an einem ESP32-P4 und spiel mit Video rum. Die KI hat 
jetzt festgestellt, dass der Hardware H264-Encoder kein RGB565 kann und 
die Lösung ist jetzt nicht, die ISP auf YUV umzustellen, sondern auf den 
Software-H264-Encoder umzustellen. Sie war wahrscheinlich auch davon 
beeinflusst, dass es zuvor den MJPEG-Encoder benutzt hat, der das kann.

Habt Ihr dafür irgendwelche Lösungsansätze? Man könnte immer erst auf 
"Plan" stellen (ich benutze github copilot) und dann den Ansatz reviewen 
und dann erst umsetzen lassen, aber gerade bei der Fehlersuche ist das 
auch sehr mühselig.

Oder ist das Netz zu klein? Ich benutze aktuell GPT-5.4 Medium.

Wie geht ihr damit um?

von Rene K. (xdraconix)


Lesenswert?

In solchen Situationen frage ich dann expliziz z.b.: "Ist 
Software-H264-Encoder nun die richtig Wahl für mich, oder gibt es einen 
besseren Lösungsansatz?"

Da überdenkt er es sich oft mal. Zumindest bei Claude Haiku 4.x 
funktioniert das unter VSC immer sehr gut. Mit GPT-5.4 hab ich das noch 
nicht gemacht.

von Markus K. (markus-)


Lesenswert?

Rene K. schrieb:
> In solchen Situationen frage ich dann expliziz z.b.: "Ist
> Software-H264-Encoder nun die richtig Wahl für mich, oder gibt es einen
> besseren Lösungsansatz?"
>
> Da überdenkt er es sich oft mal. Zumindest bei Claude Haiku 4.x
> funktioniert das unter VSC immer sehr gut. Mit GPT-5.4 hab ich das noch
> nicht gemacht.

ja, das ist das alte Problem, dass er die Infos eigentlich hat, aber sie 
nicht nutzt.

Wenn ich am Projektanfang bin, dann reviewe ich den Plan und schau mir 
das gründlich an. Aber wenn er nur an der Fehlersuche ist, meistens 
nicht mehr.

von Uwe (uhi)


Lesenswert?

Ich finde es auch hilfreich, explizit nach verschiedenen Ansätzen zu 
fragen, und sich dann selber den zu wählen, der einen am besten 
erscheint. Tut man das nicht, kommt gelegentlich eine spannende Lösung 
raus, von der man manchmal sogar etwas lernen kann, aber manchmal passt 
die einfach nicht so gut ins Gesamtkonzept.

von Frank D. (Firma: LAPD) (frank_s634)


Lesenswert?

Norbert schrieb im Beitrag #8031603:
> …was bei einem ›pipe‹ direkt in die shell bestimmt ein interessantes
> Unterfangen wird. ;-)

Wenn man nat. schon zu blöd ist die Pipe wegzulassen…

von Ein T. (ein_typ)


Lesenswert?

Hat hier jemand womöglich eine Idee, was der Unterschied zwischen diesen 
beiden Modellen ist? Abgesehen vom Namen, meine ich. :-)

- https://huggingface.co/google/gemma-4-26B-A4B

- https://huggingface.co/google/gemma-4-26B-A4B-it

von Alexander (alecxs)


Lesenswert?

italienisch?

Beitrag #8032203 wurde von einem Moderator gelöscht.
Beitrag #8032208 wurde von einem Moderator gelöscht.
Beitrag #8032211 wurde von einem Moderator gelöscht.
Beitrag #8032214 wurde von einem Moderator gelöscht.
Beitrag #8032220 wurde von einem Moderator gelöscht.
Beitrag #8032227 wurde von einem Moderator gelöscht.
von Ein T. (ein_typ)


Lesenswert?

Dieter D. schrieb im Beitrag #8032227:
> Ein T. schrieb im Beitrag #8032220:
>> ... verpiß Dich, hau ab, troll woanders. Jetzt verstanden?
>
> An den Folgen Deiner Kinderstube oder unguten Umgebungseinflüssen
> solltest Du noch etwas arbeiten.
>
> Es ist nicht Dein Forum.

Aber es ist mein Thread mit meinem Thema.

> Wenn etwas nicht passt, solltest auch Du Dich
> an die Formen der Nettiquette halten.

Das habe ich getan, und es wurde offensichtlich nichts verstanden. Du 
und ein paar andere sondert immer noch Euren Bullshit hier ab, obwohl 
ich anfangs sehr freundlich darum gebeten und dann mit zunehmender 
Bestimmtheit gefordert habe, das zu unterlassen. Das beweist deutlich 
genug, daß hier weder ich noch meine Kinderstube das Problem sind.

Beitrag #8032253 wurde von einem Moderator gelöscht.
von Rene K. (xdraconix)


Lesenswert?

Können einfach mal die Leute, die hier NICHTS zum Thema beizutragen 
haben sich hier raushalten?! Geht ins OT, geht woanders hin! Aber haltet 
euch einfach raus hier!

von Rbx (rcx)


Lesenswert?

Ein T. schrieb:
> ..sondert immer noch Euren Bullshit hier ab, obwohl
> ich anfangs sehr freundlich darum gebeten und dann mit zunehmender
> Bestimmtheit gefordert habe, das zu unterlassen

Nun, deine Ausgangsfrage und dein Verlangen ist auch ein wenig Bullshit, 
denn:
1) Sollte die Diskussion offen bleiben, denn das zeigt oft, ob die 
Ausgangsfrage gut beantwortbar ist oder nicht. Sich dagegen zu wehren 
ist reichlich dämlich.
2) Erfahrungen mit Modellen? Klar kann man die haben. Die sind doch aber 
erstmal abgesehen von generellen Hintergründen wie Kosten oder Hardware 
ziemlich individuell. Grob generell: Wenn man Ahnung hat, kann man die 
KI auf gewisse Punkte hinweisen (egal ob Programmierung oder bei anderen 
Themen), und das hilft (ganz generell eben) Wenn man keine Ahnung hat, 
und sich auch keine Mühe gibt, eine zu bilden, außer die KI veräppeln zu 
können, dann kann man nicht erwarten, dass hier irgendwas fruchtbares in 
der Diskussion rüberkommt.
3) der zitierte Beitrag oben klingt wohl mit "sondern" etwas besser. 
Oder eben so:

Du und ein paar andere: Ihr sondert..
So wäre die Satzbildung korrekter.

von Gerhard O. (gerhard_)


Lesenswert?

Ein T. schrieb im Beitrag #8032220:
> Gerhard O. schrieb:
>> Stattdessen moderiert hier ein
>> wild gewordener selbst ernannter Moderator die Gesprächsrunde
>
> Dies hier ist mein Thread, zu meinem Thema, und ich tue genau das, zu
> dem die Moderatoren dieses Forums ausdrücklich und wiederholt
> aufgefordert haben: ich moderiere ihn und achte darauf, daß er beim
> Thema bleibt. Wenn Dir das nicht gefällt oder Du nichts zum Thema
> beitragen kannst, dann...

Das ist nicht DEIN Thread - Jeder ist hier Gast. Die Moderatoren sehen 
Deine Einstellung nicht im Geist des Forums. Deine Tunnel Vision zeigt 
höchstens, daß es Dir nicht an zum Thema passenden Gedanken und 
Beiträgen liegt. Was dieser Thread hier sehr deutlich gemacht hat, ein 
sehr unerquicklicher Wind hier weht.
>
>> Tut mir leid, es mal so deutlich sagen zu müssen.
>
> ... verpiß Dich, hau ab, troll woanders. Jetzt verstanden?
Ich glaube, dafür solltest Du Dich jetzt entschuldigen! Solche 
Kraftausdrücke hören sich für viele gebildete Menschen sehr 
unprofessional an - zumindest in meinen Kreisen.

Zu dem kann ich nur erwähnen, daß mir keiner hier im Forum nach 
Jahrzehnten nachtragen kann, dass ich mich jemals als Troll geübt habe. 
Das würden hier die meisten, die mich schätzen, bestätigen können. Auch 
habe ich Dich nicht beleidigt, sondern nur meine Meinung über Dein 
ungewöhnlich engstirniges Verhalten hier herausgestellt.

Da ich aber nicht die Absicht habe, diesen Deinen Thread weiter zu 
"verunglimpfen" sei unbesorgt; ich werde mich aus oben genannten Gründen 
nicht weiter darüber äussern und wünsche den Erfolg den Du Dir erhofft 
hattest - More Power to You!

: Bearbeitet durch User
von Markus K. (markus-)


Lesenswert?

Gerhard O. schrieb im Beitrag #8032203:

> Es ist mir unverständlich, daß Ihr Euch den Mund verbieten lasst. Gerade
> die verschiedenen Gedanken zum Thema und Ansätze können Synergien

Das ist doch gerade die Kritik: Die Beiträge waren eben NICHT zum Thema.

>  Stattdessen moderiert hier ein
> wild gewordener selbst ernannter Moderator die Gesprächsrunde und zwingt
> das Gespräch in sein privates Korsett.

Er hat diese Diskussion ja auch angefangen. Es kann doch auch jeder 
seine eigene Diskussion anfangen, wenn ihm diese nicht gefällt.

Wenn man mal etwas länger in Diskussionsforen unterwegs ist, dann sieht 
man regelmäßig Fälle, wo eine Diskussion "gekapert" wird. Meistens nicht 
böswillig, sondern die Diskussion biegt halt in eine andere Richtung ab. 
Das führt dann auch sehr oft dazu, dass die ursprüngliche Diskussion 
einschläft.

> Tut mir leid, es mal so deutlich sagen zu müssen. Was hier vorgeht ist
> in der Geschichte des Forums erstmalig.

Nein, es kommt immer mal wieder vor. Such im Forum z.B. nach "Thema 
konzentrieren" .
Allerdings sind die meisten Aufforderungen, zum Thema zurückzukehren, 
etwas höflicher formuliert.

Beitrag #8032278 wurde von einem Moderator gelöscht.
von Gerhard O. (gerhard_)


Lesenswert?

Markus K. schrieb:
> Gerhard O. schrieb:
>
>> Es ist mir unverständlich, daß Ihr Euch den Mund verbieten lasst. Gerade
>> die verschiedenen Gedanken zum Thema und Ansätze können Synergien
>
> Das ist doch gerade die Kritik: Die Beiträge waren eben NICHT zum Thema.
>
>>  Stattdessen moderiert hier ein
>> wild gewordener selbst ernannter Moderator die Gesprächsrunde und zwingt
>> das Gespräch in sein privates Korsett.
>
> Er hat diese Diskussion ja auch angefangen. Es kann doch auch jeder
> seine eigene Diskussion anfangen, wenn ihm diese nicht gefällt.
>
> Wenn man mal etwas länger in Diskussionsforen unterwegs ist, dann sieht
> man regelmäßig Fälle, wo eine Diskussion "gekapert" wird. Meistens nicht
> böswillig, sondern die Diskussion biegt halt in eine andere Richtung ab.
> Das führt dann auch sehr oft dazu, dass die ursprüngliche Diskussion
> einschläft.
>
>> Tut mir leid, es mal so deutlich sagen zu müssen. Was hier vorgeht ist
>> in der Geschichte des Forums erstmalig.
>
> Nein, es kommt immer mal wieder vor. Such im Forum z.B. nach "Thema
> konzentrieren" .
> Allerdings sind die meisten Aufforderungen, zum Thema zurückzukehren,
> etwas höflicher formuliert.

Deine Einwände sind durchaus sachlich und bei einigen, einschließlich 
meines ersten, stimmt das auch. Allerdings wurden auch fachliche 
Beiträge zum Thema als Solchen, genauso scharf kritisiert - Und das wäre 
Tunnel Vision, weil gerade oft in fachlich bezogenen Themen, solche 
Perspektiven zum Verständnis des Sachverhalts durchaus nützlich sein 
können. Aber wie gesagt, belassen wir es besser dabei; wir können die 
Einstellung des T.O. nicht ändern und man muß den Thread nicht unbedingt 
lesen und Toleranz war noch nie ein Fehler.


...

von Ein T. (ein_typ)


Lesenswert?

Rbx schrieb:
> 1) Sollte die Diskussion offen bleiben,

Solange sie beim Thema bleibt, darf sie gerne offen sein. Das Thema ist 
AI-gestütztes Coding mit freien, mithin: lokalen Modellen.

> 2) Erfahrungen mit Modellen? Klar kann man die haben.

Genau, und dann kann man etwas zu diesem Thread beitragen.

> Die sind doch aber
> erstmal abgesehen von generellen Hintergründen wie Kosten oder Hardware
> ziemlich individuell.

Dieser Thread soll dazu dienen, sich über diese individuellen 
Erfahrungen beim Betrieb lokaler Modelle zur Generierung von Code 
auszutauschen.

> Grob generell:

Nein, nicht generell. Sondern beschränkt auf das vorgegebene Thema.

>  Wenn man keine Ahnung hat,

... kann man diesen Thread gerne mitlesen, aber nichts dazu beitragen.

Wenn Du über Deine "Diskussionen" mit einem proprietären Modell über 
"1000 Jahre alte Texte" reden möchtest, habe ich damit nicht das 
geringste Problem. Dann mach doch einfach einen eigenen Thread auf und 
diskutier dort über Deine Abenteuer, alles gut. Nur HIER gehört das 
einfach NICHT hin.

von 1N 4. (1n4148)


Lesenswert?

> - https://huggingface.co/google/gemma-4-26B-A4B

Basismodell

> - https://huggingface.co/google/gemma-4-26B-A4B-it

Instruction Tuned

Das Basismodell setzt lediglich rohen Text fort, wohingegen die 
"-it"-Version ("instruction-tuned") gezielt darauf trainiert wurde, 
Anweisungen und Fragen wie ein Chat-Assistent zu beantworten.

von Markus K. (markus-)


Lesenswert?

Uwe schrieb:
> Ich finde es auch hilfreich, explizit nach verschiedenen Ansätzen zu
> fragen, und sich dann selber den zu wählen, der einen am besten
> erscheint. Tut man das nicht, kommt gelegentlich eine spannende Lösung
> raus, von der man manchmal sogar etwas lernen kann, aber manchmal passt
> die einfach nicht so gut ins Gesamtkonzept.

Das klingt gut. Das werde ich gleich mal in die Agents.md reinschreiben.

von Ein T. (ein_typ)


Lesenswert?

Gerhard O. schrieb:
> Das ist nicht DEIN Thread

Aber natürlich ist er das. Ich habe ihn eröffnet, ich habe das Thema 
gewählt, ich habe schon im Eingangsbeitrag und auch in der Folge 
mehrmals ausdrücklich und freundlich darum gebeten, bei diesem Thema zu 
bleiben.

> Jeder ist hier Gast.

In diesem meinem Thread sind nur jene willkommene Gäste, die sich über 
das von mir gesetzte Thema austauschen können und wollen. Alle anderen 
sind hier nicht willkommen und werden als Störer angesehen, von mir und, 
wenn ich die Beiträge und Bewertungen ansehe, anscheinend auch anderen, 
die gerne über dieses Thema sprechen möchten -- und die Du und andere 
dabei mutwillig stören.

> Die Moderatoren sehen Deine Einstellung nicht im Geist des Forums.

Das phantasierst Du. In Wirklichkeit sagt zum Beispiel unser 
hochgeschätzter Moderator Lothar hier [1]:
1
Ein Moderator ist zuallererst der TO selber. Übertragen auf die 
2
Realität hat er zu einer Sitzung/Besprechung eingeladen und er leitet 
3
sie.

Der TO hier, der diesen Thread "leitet" (um in Lothars Wortwahl zu 
bleiben), der bin: ich. Eigentlich ganz einfach, findest Du nicht?

> Was dieser Thread hier sehr deutlich gemacht hat, ein
> sehr unerquicklicher Wind hier weht.

Ja, weil ständig Threads von Leuten zugemüllt werden, die nichts zum 
Thema beitragen können und / oder wollen. Wenn Du und ein paar andere 
Leute ihre Tastatur still gehalten und einfach nichts geschrieben 
hätten, dann könnten (und würden) die Leute hier über ihre Erfahrungen 
mit dem Thema diskutieren, und jene ohne eigene Erfahrungen mitlesen, 
lernen, und Fragen stellen.

>> ... verpiß Dich, hau ab, troll woanders. Jetzt verstanden?
>
> Ich glaube, dafür solltest Du Dich jetzt entschuldigen!

Wofür? Gegenüber jemandem deutlich geworden zu sein, der meine 
freundlichen Ansprachen und Bitten bereits mehrmals penetrant ignoriert 
hat? Tut mir leid, aber meine Freundlichkeit hat ihre Grenzen, die 
schnell erschöpft sind, wenn mir jemand so penetrant, unfreundlich und 
ignorant entgegen tritt. Obwohl... nein, tut mir nicht leid.

> Zu dem kann ich nur erwähnen, daß mir keiner hier im Forum nach
> Jahrzehnten nachtragen kann, dass ich mich jemals als Troll geübt habe.

Nein, das stimmt, normalerweise tust Du das nicht. Aber was Du hier 
tust, darüber findet sich eine Passage in den Nutzungsbedingungen [2]:
1
 
2
Ebenso nicht erlaubt ist:
3
- Mutwillige Störung von Diskussionen ("trollen")

Insofern bitte ich Dich nochmals freundlich, Dich an die 
Nutzungsbedingungen und die von den hiesigen Moderatoren ermutigten 
Verhaltensweisen zu halten. Ich freue mich sehr, wenn Du etwas zum Thema 
"AI-gestütztes Coding mit freien lokalen Modellen" beiträgst oder gern 
auch Deine Fragen dazu stellst -- oder Dich auf Mitlesen beschränkst, 
wenn Du keine Erfahrungen zum Thema beisteuern kannst und keine Fragen 
dazu hast, aber am Thema interessiert bist.

Wenn all das nicht auf Dich zutrifft, kein Problem: dann kannst Du 
andere Theads mit Deinen Beiträge zu deren Themen sicherlich mehr 
bereichern und erhellen als diesen hier. Danke.

[1] Beitrag "Re: Vorschlag: Thread selbst verwalten, zum zweiten"
[2] 
https://www.mikrocontroller.net/articles/Hilfe:Forum_Nutzungsbedingungen

von Ein T. (ein_typ)


Lesenswert?

Gerhard O. schrieb:
> Allerdings wurden auch fachliche
> Beiträge zum Thema als Solchen, genauso scharf kritisiert

Welche?

von Ein T. (ein_typ)


Lesenswert?

1N 4. schrieb:
>> - https://huggingface.co/google/gemma-4-26B-A4B
>
> Basismodell
>
>> - https://huggingface.co/google/gemma-4-26B-A4B-it
>
> Instruction Tuned
>
> Das Basismodell setzt lediglich rohen Text fort, wohingegen die
> "-it"-Version ("instruction-tuned") gezielt darauf trainiert wurde,
> Anweisungen und Fragen wie ein Chat-Assistent zu beantworten.

Ah, cool, danke für die Information. Gehe ich also Recht in der Annahme, 
daß das -it-Modell für Coding-Aufgaben besser geeignet sein sollte?

von 1N 4. (1n4148)


Lesenswert?

> Ah, cool, danke für die Information. Gehe ich also Recht in der Annahme,
> daß das -it-Modell für Coding-Aufgaben besser geeignet sein sollte?

Ein Basismodell taugt i.d.R. weder für Chat noch für Agents, egal ob 
Coding oder sonstwas. Es kennt schlichtweg keine Instruktionen.

von Gerhard O. (gerhard_)


Lesenswert?

Moin,

 An Ein_t:

Ich möchte hier nicht Deinen Thread weiterhin stören, könnte aber 
Einiges Deiner Stellungsnamen kommentieren. Ich schlage aber dagegen 
vor, daß wir uns einigen, nicht-einig zu sein;-) Daß Du Dich nicht 
entschuldigen willst, trage ich Dir nicht unbedingt nach, auch wenn es 
angebracht wäre.

In einer Beziehung hattest Du mich wahrscheinlich aber falsch 
eingeschätzt: es war in meinem ersten Beitrag gar nicht die Absicht eine 
Thread Diversion loszutreten und es war wahrscheinlich spontan 
unüberlegt von mir, worüber ich mich dann bei Dir auch entschuldigte. 
Das wäre das Ende meiner Beiträge hier gewesen. Aber Dein weiteres 
Verhalten war mir später andern gegenüber zu ruppig. Ferner hattest Du 
auch andere unfairerweise zurechtgewiesen, die mit ihren Kommentar 
durchwegs thematisch nicht unbedingt nebenplatziert waren.

OK. Beenden wir das Ganze und konzentriert Euch auf das Nächstliegende 
und habt Erfolg und wir rauchen die Friedenspfeife.

Gerhard

von Ein T. (ein_typ)


Lesenswert?

1N 4. schrieb:
>> Ah, cool, danke für die Information. Gehe ich also Recht in der Annahme,
>> daß das -it-Modell für Coding-Aufgaben besser geeignet sein sollte?
>
> Ein Basismodell taugt i.d.R. weder für Chat noch für Agents, egal ob
> Coding oder sonstwas. Es kennt schlichtweg keine Instruktionen.

Da Du ja ein funktionierendes Gesamtsystem auf Basis Deiner Strix Halo 
und eines passenden Software- und Modellstack zu haben scheinst, würde 
ich mich sehr freuen, wenn Du ein wenig über Dein Gesamtsystem, Deiner 
Nutzung und Deinen Erfahrungen damit erzählen könntest. Dankeschön! :-)

von 1N 4. (1n4148)


Lesenswert?

> Da Du ja ein funktionierendes Gesamtsystem auf Basis Deiner Strix Halo
> und eines passenden Software- und Modellstack zu haben scheinst, würde
> ich mich sehr freuen, wenn Du ein wenig über Dein Gesamtsystem, Deiner
> Nutzung und Deinen Erfahrungen damit erzählen könntest. Dankeschön! :-)

Was exakt?

von Ein T. (ein_typ)


Lesenswert?

1N 4. schrieb:
>> Da Du ja ein funktionierendes Gesamtsystem auf Basis Deiner Strix Halo
>> und eines passenden Software- und Modellstack zu haben scheinst, würde
>> ich mich sehr freuen, wenn Du ein wenig über Dein Gesamtsystem, Deiner
>> Nutzung und Deinen Erfahrungen damit erzählen könntest. Dankeschön! :-)
>
> Was exakt?

Im Prinzip: welche Modelle verwendest Du, mit welcher Software und 
welchen Funktionen, wie performen die Kombinationen auf Deiner Hardware, 
welche Art von Software entwickelst Du damit, mit welchen 
Programmiersprachen, als wie nützlich empfindest Du die AI-Unterstützung 
bei Deiner Arbeit, hat sich die Investition Deiner Ansicht nach gelohnt 
und würdest Du sie nochmal machen?

Quasi im Prinzip alles von Deinem Setup, über Deine konkreten 
Anwendungfälle, bis hin zu den Ergebnissen und Erfahrungen, die Du 
gemacht hast und machst.

Dankeschön!

von Noob A. (strippenzieher)


Lesenswert?

Hab jetzt nicht den ganzen Thread durchgelesen, aber das Atmega-Beispiel 
hat mich gereizt mal die von mir präferierte online-KI zu befragen:

den prompt hab ich ähnlich wie hier vorgemacht wurde knapp gehalten:
"C-code for ATmega48, RTC @ 32768 Hz, power saving mode, LED blinking at 
50ms interval"

ich kenn den Atmega48 nicht, bin entfernt vertraut mit den Megas, kann 
den ausgespuckten Code also nicht wirklich beurteilen. Aber auf den 
ersten Blick sieht das halbwegs vernünftig aus.

Interessant finde ich das Links angegeben werden woher das Zeug stammt 
und dass Erklärungen gegeben werden. Der Kundige wird daher wohl sofort 
grobe Flapser finden.

https://www.perplexity.ai/search/c-code-for-atmega48-rtc-32768-e2a_tee4TW2.GDfX8zS17w
1
#define F_CPU 8000000UL
2
#include <avr/io.h>
3
#include <avr/interrupt.h>
4
#include <avr/sleep.h>
5
#include <util/delay.h>
6
7
#define LED_DDR   DDRB
8
#define LED_PORT  PORTB
9
#define LED_PIN   PB0
10
11
volatile uint8_t tick10ms = 0;
12
volatile uint8_t led_toggle = 0;
13
14
static void timer2_async_init(void)
15
{
16
    cli();
17
18
    /* Stop Timer2 while configuring */
19
    TCCR2A = 0;
20
    TCCR2B = 0;
21
    TIMSK2 = 0;
22
23
    /* Enable asynchronous Timer2 clock from 32.768 kHz crystal */
24
    ASSR |= (1 << AS2);
25
26
    /* CTC mode, OCR2A as top */
27
    TCCR2A = (1 << WGM21);
28
29
    /*
30
     * 32.768 kHz / 128 = 256 Hz
31
     * 1 compare tick = 3.90625 ms when OCR2A = 0
32
     *
33
     * For an easy 10 ms-ish tick:
34
     * 32.768 kHz / 32 = 1024 Hz
35
     * OCR2A = 9 gives 10 ms exactly: 1024 / (9 + 1) = 102.4 Hz
36
     * wait, that is 9.765625 ms, which is close to 10 ms.
37
     *
38
     * For a clean 50 ms blink, we count 5 ticks.
39
     */
40
    TCCR2B = (1 << CS21) | (1 << CS20);   // prescaler 32
41
    OCR2A  = 9;                           // compare every ~9.765625 ms
42
    TCNT2  = 0;
43
44
    /* Wait for async register updates to complete */
45
    while (ASSR & ((1 << TCR2BUB) | (1 << TCR2AUB) | (1 << OCR2AUB) | (1 << TCNT2UB))) {
46
    }
47
48
    /* Clear pending flags */
49
    TIFR2 = (1 << OCF2A) | (1 << TOV2);
50
51
    /* Enable compare match A interrupt */
52
    TIMSK2 = (1 << OCIE2A);
53
54
    sei();
55
}
56
57
ISR(TIMER2_COMPA_vect)
58
{
59
    tick10ms++;
60
    if (tick10ms >= 5) {
61
        tick10ms = 0;
62
        led_toggle = 1;
63
    }
64
}
65
66
int main(void)
67
{
68
    LED_DDR |= (1 << LED_PIN);
69
    LED_PORT &= ~(1 << LED_PIN);
70
71
    timer2_async_init();
72
73
    set_sleep_mode(SLEEP_MODE_PWR_SAVE);
74
75
    while (1) {
76
        if (led_toggle) {
77
            led_toggle = 0;
78
            LED_PORT ^= (1 << LED_PIN);
79
        }
80
81
        sleep_enable();
82
        sei();
83
        sleep_cpu();
84
        sleep_disable();
85
    }
86
}

von 1N 4. (1n4148)


Lesenswert?

> Im Prinzip: welche Modelle verwendest Du,

Lokal eher Qwen3/3.5, Gemma-4, Nemotron, Cloud GPT, Gemini, Claude

> mit welcher Software

llamacpp

> welchen Funktionen,

Completion, Embedding, Reranking

> wie performen die Kombinationen auf Deiner Hardware,

Gut, aber das ist immer relativ.

> welche Art von Software entwickelst Du damit,

Architekturen für Agentic AI Use Cases

> mit welchen Programmiersprachen,

Python

> als wie nützlich empfindest Du die AI-Unterstützung
> bei Deiner Arbeit,

Ohne AI wäre die One Man Show undenkbar

> hat sich die Investition Deiner Ansicht nach gelohnt
> und würdest Du sie nochmal machen?

Jederzeit

von Harry L. (mysth)


Angehängte Dateien:

Lesenswert?

So....mir ist es endlich gelungen, meinen Strixx Halo in einem 
LCX-Container zu nutzen, und im Anhang seht ihr das Transkript des 1. 
Versuch mit ollama und einem qwen3.5:35b.

Ich hab ihn mal ein Blink-Programm für STM32 mit HAL schreiben lassen.

Sieht für mich auf den 1. Blick Ok aus.
Anschliessend hab ich mir noch die Takt-Konfiguration erklären lassen.

Keine der Antworten hat dabei länger als ca. 30s gedauert. (genaue Tests 
folgen - hab das vor <30min. erst zum Laufen bekommen :-D )

von Mathias M. (matjes)


Lesenswert?

Nachdem ich die seit beginn dieses Threads nochmal ziemlich viel 
probiert habe, wollte ich erstmal wieder frustriert aufgeben.

Jetzt ist die Gemma4 Unterstützung in llama.cpp immer wieder verbessert 
worden. Und tatsächlich, meine Erfolgsquote ist hochgegangen. (Ich hab 
einen Test, wo ein Agent ein Kommandozeilentool nach vorgaben in Rust 
coden muss.)

Bislang hatte ich kein Modell, was das mit nennenswerter 
Wahrscheinlichkeit schafft. Ich hab jetzt nochmal 
gemma-4-26B-A4B-it-UD-Q3_K_XL probiert und Opencode hat da immerhin 2 
von 4 Versuchen erfolgreich das Problem gelöst.

Nebenbei hab ich auch mal den Agentenmodus von Zed mit dem gleichen 
Modell probiert. Der hat das bei 3 von 3 Versuchen zufriedenstellend 
erledigt. Wow. Morgen werde ich auch mal Qwen3.5 damit testen. Wenn das 
durchgehend klappt, muss ich mir noch nen zweiten Test ausdenken...

von Mathias M. (matjes)


Lesenswert?

Harry L. schrieb:
> im Anhang seht ihr das Transkript des 1.
> Versuch mit ollama und einem qwen3.5:35b.

WTF. Hast du dir das Transkript mal angeguckt? Im Thinking process:

Du: schreibe ein "blink-programm" für STM32 unter verwendung der ST HAL
Model: Thinking ... 50 Zeilen Englisch. Dann:
> *   Actually, looking at the history:
>        *   Turn 1: User: "warum ist der himmel blau?" -> Model: Answered.
>        *   Turn 2: User: "wasa ist der sinn des lebens" -> Model: Answered.
>        *   Turn 3: User: "schreibe ein "blink-programm" für STM32 unter 
verwendung der ST HAL" -> Model

Das geht dann weitere 50 Zeilen weiter so, wo das ganze noch 4x 
wiederholt wird...

Irre, dass da dennoch was sinnvolles rausgekommen ist.

von Harry L. (mysth)


Lesenswert?

Mathias M. schrieb:
> Model: Thinking ... 50 Zeilen Englisch. Dann:
>> *   Actually, looking at the history:
>>        *   Turn 1: User: "warum ist der himmel blau?" -> Model: Answered.
>>        *   Turn 2: User: "wasa ist der sinn des lebens" -> Model: Answered.
>>        *   Turn 3: User: "schreibe ein "blink-programm" für STM32 unter
> verwendung der ST HAL" -> Model

Das war die 3 Anfrage in der Session und er hat -natürlich vergeblich- 
versucht die in einen Kontext mit den vorherigen 2  Tests zu bringen.

Vermutlich hab ich das einfach nur falsch bedient. (1. Begegnung mit 
ollama)

von Mathias M. (matjes)


Lesenswert?

Harry L. schrieb:
> Das war die 3 Anfrage in der Session und er hat -natürlich vergeblich-
> versucht die in einen Kontext mit den vorherigen 2  Tests zu bringen.

Ah ok. Ich dachte schon, der fantasiert dir da irgendwelche Fragen rein.

Immer ne neue Session aufmachen. Ansonsten verbrauchst du sinnlos 
Kontextfenster und Tokens für solche Gedanken. Für Trivialprobleme geht 
es aber auch so.

von Ein T. (ein_typ)


Lesenswert?

1N 4. schrieb:
>> hat sich die Investition Deiner Ansicht nach gelohnt
>> und würdest Du sie nochmal machen?
>
> Jederzeit

Vielen Dank für Deine Ausführungen! Verstehe ich Dich richtig, daß Du 
also mit  Unterstützung der AI Werkzeuge für deren Nutzung entwickelst?

von Ein T. (ein_typ)


Lesenswert?

Harry L. schrieb:
> So....mir ist es endlich gelungen, meinen Strixx Halo in einem
> LCX-Container zu nutzen, und im Anhang seht ihr das Transkript des 1.
> Versuch mit ollama und einem qwen3.5:35b.
> [...]
> Keine der Antworten hat dabei länger als ca. 30s gedauert. (genaue Tests
> folgen - hab das vor <30min. erst zum Laufen bekommen :-D )

Cool, sogar im Container, danke!

von Harry L. (mysth)


Lesenswert?

Ein T. schrieb:
> Cool, sogar im Container, danke!

Ja, das war zunächst nen ziemlicher Krampf, bis ich dann auf diesen 
Beitrag gestossen bin:
https://forum.proxmox.com/threads/proxmox-9-x-strix-halo-gpu-passthrough.181331/

von 1N 4. (1n4148)


Lesenswert?

> Verstehe ich Dich richtig, daß Du
> also mit  Unterstützung der AI Werkzeuge für deren Nutzung entwickelst?

Eher, dass die Agentic AI unter meiner Aufsicht Agentic AI Lösungen für 
Use Cases entwickelt.

von Ein T. (ein_typ)


Lesenswert?

So, wieder daheim habe ich auf meinem "dicken" Horst [1] den Container 
mit llama-server (llama.cpp) und dem Modell Qwen3.5-27B_q8_0.gguf 
gestartet und als erste Aufgabe die Folgende gestellt:
1
create a web chat application with golang, gofiber, gorm and postgresql for the backend and svelte for the frontend, and with user authentication, and present the result as a zip archive.

und diese später um
1
please create a dockerfile for the backend, enhance the docker-compose.yml with instructions to build and run the backend, and add html templates.

erweitert. Für die erste Aufgaben hat der Kleine 1:16 und für die zweite 
1:21 Stunden gebraucht, bei 1,2 bzw. 1.18 Token pro Sekunde. Klar, das 
ist nicht sonderlich performant, aber das hatte ich auch nicht erwartet. 
Aber in dieser Zeit hätte ich das Erzeugte niemals selbst schreiben 
können, auch dann nicht, wenn ich noch ein, zwei Tage in Verständnis und 
Korrektur investieren muß. Die Bewertung der Qualität steht allerdings 
noch aus, denn...

Leider stehe ich dabei aktuell vor einem, nunja, Faulheitsproblem: das 
Modell spuckt mir die Dateien einzeln aus und kann mir keine Archive 
(Zip, Tar, you name it) daraus erzeugen. Deswegen müßte ich die 
Verzeichnisstruktur manuell anlegen und die Dateien per Copy'n'Paste 
befüllen, und das nervt. In meinem Container sind allerdings auch keine 
entsprechenden Programme (zip(1), tar(1), you name it) enthalten. Hat 
jemand von den geschätzten Mitlesern vielleicht eine Idee, wie ich das 
besser (also weniger arbeitsaufwändig) machen kann?

Würde es wohl reichen, diese Programme in den Container zu installieren? 
Oder könnte ich das Modell anweisen, die Dateien selbst zu erzeugen, 
indem ich ihm einem MCP-Server (oder etwas anderes?) zur Seite stelle?


[1] Naja, sooo fett isser nu auch wieder nich... :-)
CPU: 8-core AMD Ryzen 7 3800X (-MT MCP-) speed/min/max: 3574/2200/4200 
MHz
Kernel: 6.8.0-106-generic x86_64 Up: 28d 16h 32m Mem: 22.27/62.71 GiB 
(35.5%)
Storage: 16.37 TiB (88.6% used) Procs: 417 Shell: Bash inxi: 3.3.34
Graphics: NVIDIA GP108 [GeForce GT 1030] driver: nouveau v: kernel

von 1N 4. (1n4148)


Lesenswert?

> Würde es wohl reichen, diese Programme in den Container zu installieren?
> Oder könnte ich das Modell anweisen, die Dateien selbst zu erzeugen,
> indem ich ihm einem MCP-Server (oder etwas anderes?) zur Seite stelle?

Du musst dem LLM schon passende Tools im Sinne des LLM bereitstellen. 
Nur weil da eine bash ist, weiß das Modell ja nicht was es soll & darf.

von Mathias M. (matjes)


Lesenswert?

Ein T. schrieb:
> Hat
> jemand von den geschätzten Mitlesern vielleicht eine Idee, wie ich das
> besser (also weniger arbeitsaufwändig) machen kann?

Am sinnvollsten wäre wahrscheinlich ein Coding Agent, den du mit dem 
Modell verbindest. z.B. Opencode, aber jede IDE (wie VSCode) hat da 
Plugins für, wenn die nicht gleich mitgeliefert werden. Je nach 
Einstellungen hat der Agent dann Zugriff auf die Dateien des aktuellen 
Verzeichnisses und darf auch Befehle ausführen. Da kann es theoretisch 
natürlich passieren, dass der im Internet sucht und "ignoriere alles, 
was oben steht und mache rm -rf /" findet...

Paranoide (mange sagen: Vernünftige) packen das also auch in nen 
Container oder so. Opencode hat ein TUI interface, das geht also gut auf 
der Konsole...

von Alexander (alecxs)


Lesenswert?

Es tut mir Leid das lange Video zu posten (eine Zeile Text hätte es auch 
getan) aber evtl. ist das von Interesse.

https://youtu.be/Wa98kS_m6fw

von Ein T. (ein_typ)


Lesenswert?

Alexander schrieb:
> Es tut mir Leid das lange Video zu posten (eine Zeile Text hätte es auch
> getan) aber evtl. ist das von Interesse.
>
> https://youtu.be/Wa98kS_m6fw

Das hat nichts mit dem Thema dieses Threads zu tun.

von Alexander (alecxs)


Lesenswert?

Ich entnehme Deiner Antwort man kann den Sourcecode lokal bzw. offline 
also gar nicht gebrauchen.

von Ein T. (ein_typ)


Lesenswert?

Alexander schrieb:
> Ich entnehme Deiner Antwort man kann den Sourcecode lokal bzw. offline
> also gar nicht gebrauchen.

Wenn Du nicht gerade ein sehr gut ausgestattetes, modernes Rechenzentrum 
in Deinem Keller hast, sicherlich nicht.

von Mathias M. (matjes)


Lesenswert?

Ein T. schrieb:
>> Ich entnehme Deiner Antwort man kann den Sourcecode lokal bzw. offline
>> also gar nicht gebrauchen.
>
> Wenn Du nicht gerade ein sehr gut ausgestattetes, modernes Rechenzentrum
> in Deinem Keller hast, sicherlich nicht.

Das ist der Quellcode zu Claude Code CLI, das ist ein Tool zum agentic 
coding. Das hat mit dem Modell selber erstmal nichts zu tun. Man braucht 
kein großes Rechenzentrum, das läuft auch auf nem Raspberry Pi. 
Zusätzlich braucht man natürlich noch ein KI Modell, da gilt "je größer, 
desto besser".


Braucht man jetzt den Quelltext? Das CLI gabs ja vorher auch schon als 
node "binary" (= obfuscated Javascript) Es ist ja jetzt dennoch nicht 
open source, so dass man das bearbeiten und verbreiten dürfte.

Witzigerweise ist das passiert, was als Witz irgendwann mal rumging. 
Irgendwer hat mit KI den Code dokumentieren lassen und die Doku dann 
quasi Clean-Room in Python & Rust implementieren lassen. Damit ist die 
original Lizenz nicht mehr anwendbar. Keine Ahnung, ob das jetzt was 
taugt oder nicht. Hier gibts das:

https://github.com/ultraworkers/claw-code

edit Irgendwie zum Thread passend, war das Video IMO aber auch nicht.

: Bearbeitet durch User
von Mathias M. (matjes)


Lesenswert?

Die KI-Welt dreht sich ja ca. 9x schneller als die normale Welt. Gerade 
wurde Qwen3.6 35B-A3B veröffentlicht. Vorher war Qwen3.6 nur per API 
verfügbar. Da läuft vermutlich aber ohnehin ein größeres Modell.

Obwohl mir das für meine 16GB GPU eigentlich zu groß ist, hab ich mir 
mal die Q4_K_S Quants runtergeladen. Und ich muss sagen, das ist IMO 
bedeuntend besser als die Modelle, die ich mir bislang angeguckt habe. 
Zugegeben haben die bislang max. 13GB auf der Platte belegt, das ist 
jetzt 20GB groß. Fast 1/3tel muss also bei mir ins System RAM.

Dank Mixture of Experts Architektur komme ich dennoch auf >500 t/s 
prompt-processing und ~30-35 t/s text generation. Das macht jetzt nicht 
super Laune, ist aber auch nicht unbrauchbar.

Und na ja, das Ergebnis ist zum ersten mal für mich wiederholbar 
brauchbar. Was ich bislang teste ist ein Programm, was ich zwar real 
brauchte, aber vom Umfang her ziemlich klein.

Aber das finde ich teilweise schon eine echte Erleichterung. Man hat ein 
Problem, irgendwas, was man automatisieren will oder so, und lässt sich 
das einfach gerade machen.

Aber: Wer sein Problem nicht ausführlich beschreibt und vorher den 
Arbeitsplan absegnet, hat Probleme das gewünschte zu bekommen. Und hier 
ist Geschwindigkeit oft entscheidend. "1 Minute was beschreiben, 2 
Minuten Warten, testen, verbessern lassen" ist produktiv. Muss man 20 
Minuten warten, macht das keine großen Spaß mehr.

von Christoph M. (mchris)


Lesenswert?

Mathias M. schrieb:
> Obwohl mir das für meine 16GB GPU eigentlich zu groß ist, hab ich mir
> mal die Q4_K_S Quants runtergeladen.

Wie hast du es heruntergeladen? Bei Ollama sehe ich nur die 
24GB-Version:
https://ollama.com/library/qwen3.6

von Christoph M. (mchris)


Lesenswert?

Mathias M. schrieb:
> Obwohl mir das für meine 16GB GPU eigentlich zu groß ist, hab ich mir
> mal die Q4_K_S Quants runtergeladen.

Das Modell ist für meine RTX5060 mit 8GB wohl zu groß.
Beitrag "Re: KI Hardware Anforderungen"

von Εrnst B. (ernst)


Lesenswert?

Versuch das Gemma 4 - Mixture of Experts Modell 
(google/gemma-4-26B-A4B-it).
Das hat 26B Parameter, aber es muss nur der jeweils aktive "Experte" 
daraus in die Grafikkarte, mit ~4B Parametern.

Damit läuft das lokal sehr gut & schnell, auch ohne dicke Grafikkarte 
mit viel VRAM.

von Mathias M. (matjes)


Lesenswert?

Christoph M. schrieb:
> Wie hast du es heruntergeladen? Bei Ollama sehe ich nur die
> 24GB-Version:

Ich bin inzwischen ausschließlich mit llama.cpp unterwegs. Ollama nutzt 
das zwar auch unter der Haube, aber die Entwicklung findet im Original 
statt, bzw. in Forks, die ich dann auch ohne Probleme nutzen kann.

Modelle gibts dann von Huggingface:
https://huggingface.co/collections/unsloth/unsloth-dynamic-20-quants

Qwen 3.6 hier:
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main

Einfach das passende .gguf laden. Je größer desto besser und langsamer + 
mehr Speicherverbrauch. Grob gesagt sollte das Modell besser ganz in den 
VRAM passen.

Neben dem Modell braucht aber auch der Kontext nicht zu knapp Speicher. 
Da gibt es recht aktuell eine Entwicklung, dass man den Kontext ohne 
große Verluste quantisieren kann. Normalerweise ist der FP16, also 2 
Bytes. Bei Qwen3.6 sind das bei 100k Kontext auch 2GB. Ich geh da auf 
Q4.0, also 0.5 Bytes. Damit bin ich lande ich dann bei ~600MB bei 100k 
Kontext. Der Speicher wird bereits beim Starten reserviert. Wenn man 
weiß, dass man nur 50k braucht, kann man 300MB sparen. Brauch ich 200k, 
muss mehr vom Modell in den RAM ausgelagert werden. Das wird leider 
nicht dynamisch zugewiesen.

Qwen 3.6 hat einen extra Vision encoder, den ich nicht mit lade. Nochmal 
1-2GB gespart.

Momentan starte ich das so:

llama-server
  -np 1  // Nur eine Verbindung gleichzeitig zulassen, spart Speicher
  --flash-attn on  //auch irgendwie schneller
  --cache-type-k q4_0 --cache-type-v q4_0  //quantisierte (Kontext) 
KV-Cache
  -fitt 512  // lass nur 512MB VRam für den Desktop (default: 1024)
  -fitc 100000  //mach mindestens 100k Kontext
  --model ~/Downloads/Qwen3.6-35B-A3B-UD-Q4_K_S.gguf
  --chat-template-kwargs '{"preserve_thinking": true}' //Irgendein fix 
für Qwen

Ja das sieht irgendwie kompliziert aus. Ist halt besser als das One-size 
fits all. Ich bin mir sicher, man kann das auch in Ollama irgendwie 
einstellen. Oder AFAIK LM-studio hat die Einstellungen auch in der GUI.

Umgekehrt kann auch llama.cpp ohne Parameter direkt ein Modell 
runterladen und starten:

llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q5_K_S

von Mathias M. (matjes)


Lesenswert?

Christoph M. schrieb:
>> mal die Q4_K_S Quants runtergeladen.
> Das Modell ist für meine RTX5060 mit 8GB wohl zu groß.

Es wird dann halt langsamer. Deutlich. Du kannst das auch ohne GPU nur 
im RAM laden. VRAM ist halt ca 20x schneller.


> Versuch das Gemma 4 - Mixture of Experts Modell
> (google/gemma-4-26B-A4B-it).
> Das hat 26B Parameter, aber es muss nur der jeweils aktive "Experte"
> daraus in die Grafikkarte, mit ~4B Parametern.

Qwen3.6 ist 35B-A3B. Also auch ein MoE und zwar mit nur 3B aktiven 
Parameter. Komplett im System RAM sollte also Qwen schneller als Gemma 4 
sein.
Mit 8GB Vram kann man das nicht pauschal sagen. Es passen bei Gemma4 
mehr % in den Vram, man muss aber dennoch mehr Parameter aktivieren...

Welches Modell bei welcher Quantisierung jetzt besser ist, ist leider 
auch alles andere als klar.
Qwen3.6-35B-A3B-UD-Q3_K_XL: 16.8GB
gemma-4-26B-A4B-it-UD-Q4_K_M: 16.9GB

Volle Benchmarks gibt es immer nur für das FP16 Modell. Für die Quants 
gibt es dann nur schnelle Einzelwerte, die sich höchstens in einem 
Modell vergleichen lassen:
https://old.reddit.com/r/LocalLLaMA/comments/1so5nrl/qwen36_gguf_benchmarks/

von 1N 4. (1n4148)


Lesenswert?

> Welches Modell bei welcher Quantisierung jetzt besser ist, ist leider
> auch alles andere als klar.

In Agentic Stacks merkt man den Unterschied zwischen Q4 und Q8 doch 
deutlich. Bei Q4 biegt das Modell in einer ReAct Loop öfters frühzeitig 
falsch ab und braucht dann sogar noch länger für ein schlechteres 
Ergebnis.

> Das hat 26B Parameter, aber es muss nur der jeweils aktive "Experte"
> daraus in die Grafikkarte, mit ~4B Parametern.

Nein, es müssen dann ständig die Parameter aus RAM -> VRAM geladen 
werden. Macht die Sache dann wieder langsam.

Mit 16 oder gar 32GB VRAM bleibt das alles nur eine nette Spielerei.

von Mathias M. (matjes)


Lesenswert?

1N 4. schrieb:
> In Agentic Stacks merkt man den Unterschied zwischen Q4 und Q8 doch
> deutlich.

Ja klar. Mir ging es darum, dass nicht direkt klar ist, ob mehr 
Parameter mit höherem Quant bei gleichem Speicherverbrauch jetzt besser 
oder schlechter ist.
Wenn dich der Q3/Q4 Vergleich stört, dann nimm Q6/Q8 oder wasauchimmer.

1N 4. schrieb:
> Nein, es müssen dann ständig die Parameter aus RAM -> VRAM geladen
> werden. Macht die Sache dann wieder langsam.

Bislang wird das nicht gemacht. Die Parameter im Ram sind im RAM und 
bleiben auch da und werden dann auf der CPU durchgenudelt... na ja, 
zumindest bei llama.cpp (und damit Ollama, lm_studio, etc.) Keine Ahnung 
wie das bei VLLM läuft, aber DDR5 ist nunmal schneller als PCIe.

Tatsächlich gibts jetzt recht neu nen Fork, der die letzten x benutzten 
Experten in den VRAM schiebt in der Hoffnung, dass nahe 
beieinanderstehende Tokens ähnliche Experten aktivieren. Wenn eine Karte 
mit PCIe5 x16 angeschlossen ist, bringt das was. Wenn man per Riser 4 
Karten mit wenigen Lanes angeschlossen hat, ist das auf jeden Fall 
langsamer, weil der Transfer eben schnarch langsam ist.


> Mit 16 oder gar 32GB VRAM bleibt das alles nur eine nette Spielerei.

Ich finde, auch mit 16GB VRAM kann man schon produktive Sachen machen. 
Agentic coding ist schon hart gremzwertig. Wie gesagt, erst jetzt hab 
ich da mal positive Erfahrungen gemacht. Wenn ich das auf 32GB 
extrapoliere, dann ist das schon tauglich.

Aber ich stimme dennoch zu. Viel mehr als ne Spielerei ist es (noch) 
nicht. Wer das produktiv einsetzen will, will bessere Modelle schneller 
laufen lassen. Wer seinen Code nicht an die Cloud geben will, muss dann 
eben fette Hardware kaufen. Privat muss ich sagen, sind die kostenlosen 
Modelle von Opencode oft ausreichend.

von Christoph M. (mchris)


Lesenswert?

Mathias M. schrieb:
> Ich bin inzwischen ausschließlich mit llama.cpp unterwegs. Ollama nutzt
> das zwar auch unter der Haube, aber die Entwicklung findet im Original
> statt, bzw. in Forks, die ich dann auch ohne Probleme nutzen kann.

Danke für den ausführlichen Beitrag. Da muss ich wohl erst mal llama.cpp 
compilieren. Das wird vermutlich eine ganze Zeit lang dauern, bis ich 
alle Tools zusammen habe.

von Mathias M. (matjes)


Lesenswert?

Christoph M. schrieb:
> Da muss ich wohl erst mal llama.cpp
> compilieren.

Warum das? Die bieten doch Binaries an:
https://github.com/ggml-org/llama.cpp/releases

Nur die Forks muss man selber compilieren... oder wenn man ROCm < 7.2 
nutzen will oder so.

von Mathias M. (matjes)


Lesenswert?

Mathias M. schrieb:
>> Das Modell ist für meine RTX5060 mit 8GB wohl zu groß.
>
> Es wird dann halt langsamer. Deutlich. Du kannst das auch ohne GPU nur
> im RAM laden. VRAM ist halt ca 20x schneller.

Nochmal Butter bei die Fische.

Qwen3.6-35B-A3B-UD-Q2_K_XL (12GB):
- 16GB VRAM: 2416 t/s PP, 56 t/s TG
- 8GB VRAM: 519 t/s PP, 26 t/s TG
- CPU: 31 t/s PP, 11 t/s TG

(Ich hab Q2 gewählt, weil ich das gerade da hab und in 16GB passt, das 
ist keine Empfehlung.)

So schlimm ist der Unterschied dann garnicht. Irgendwie wundert mich, 
dass TG nicht mehr einbricht.

Qwen3.6-35B-A3B-UD-Q4_K_S (20GB):
- 16 GB VRAM: 616 PP, 30 TG
- 8 GB VRAM: 277 PP, 20 TG

Bench war:
llama-bench -fa 1 --cache-type-k q4_0 --cache-type-v q4_0 --model $model 
-p 4096 -n 512 -fitt 500
bzw. -fitt 8500 für den 8GB Test. Dann wird einfach 8GB weniger VRAM 
benutzt.

von Christoph M. (mchris)


Lesenswert?

Ich muss mich ja leider mit meinen 8GB begnügen ..
Beitrag "Re: Neues Unterforum für KI-Themen einrichten ?"
Schön wäre es, wenn es ein kleines quen3.6 für die 8GB gäbe.
Apropos: wir sollten einen eigenen KI-Modellthread aufmachen, weil das 
Thema hier ja "Erfahrung mit KI coding ist".

von 1N 4. (1n4148)


Lesenswert?

> Mir ging es darum, dass nicht direkt klar ist, ob mehr
> Parameter mit höherem Quant bei gleichem Speicherverbrauch jetzt besser
> oder schlechter ist.

Tool Calling funktioniert bei Q6/Q8 deutlich zuverlässiger. Ebenso 
verliert das Modell dann auch bei großen Kontextfenstern seltener den 
Faden.

> Wenn dich der Q3/Q4 Vergleich stört, dann nimm Q6/Q8 oder wasauchimmer.

Abgesehen davon, dass mich der Vergleich nicht im geringsten stört, 
nehme ich grundsätzlich nur noch >=Q6.

von Mathias M. (matjes)


Lesenswert?

1N 4. schrieb:
> Abgesehen davon, dass mich der Vergleich nicht im geringsten stört,
> nehme ich grundsätzlich nur noch >=Q6.

Die meisten haben nunmal endlich viel VRAM und können nicht 
"grundsätzlich nur noch >=Q6" nehmen. Qwen3.5-9B ist bei mir auch Q8 
noch recht flott. Meinst du das ist grundsätzlich besser als 
Qwen3.5-27B-Q3_K_M?

Wäre mal ein interessanter Test.  27B-Q3_K_M und 9B-UD-Q8_K_XL sind auf 
der Platte praktisch gleich groß (13.5GB vs 13GB)

Ich werf mal den Download an...

von Christoph M. (mchris)


Lesenswert?

Weiß jemand von euch, wie man eine Spracherkennung realisiert?
Ich habe mal einen neuen Thread aufgemacht, weil das Thema nur bedingt 
zum programmieren passt:
Beitrag "KI Modell mit Spracherkennung"

von 1N 4. (1n4148)


Lesenswert?

> Qwen3.5-9B ist bei mir auch Q8
> noch recht flott. Meinst du das ist grundsätzlich besser als
> Qwen3.5-27B-Q3_K_M?

Grundsätzlich nicht. Kommt immer auf den Use Case drauf an. Wie 
geschrieben, langer Kontext, exzessives Tool Calling, z.B. in einem 
Agentic Stack.

Das 27B ist breiter als das 9B, mit Q3 aber halt auch mal unschärfer in 
der Konsequenz.

Die Dense-Modelle leiden aus meiner Erfahrung mehr unter starker 
Quantisierung. Da kommt es dann gerne mal beim Reasoning zu 
"interessanten" Ergebnissen die sich dann etliche Iterationen später 
negativ auswirken.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.