Jens B. schrieb: > Ach ja, auf Dummheit hinweisen ist heutzutage ja voll schlecht. Meist werden solche Skripte von genau dem Projekt angeboten, dessen Software man ohnehin auf seinem System ausführen möchte, was man sicherlich nicht tun würde, wenn man dem Projekt oder der Software mißtraut. Wer derartige Basics nicht weiß, wird sie hier nicht lernen und höchstwahrscheinlich ohnehin auch keine Experimente mit lokalen LLMs machen, die hier das Thema sind. Insofern ist dieser Thread nicht der richtige Ort für Deinen Hinweis, weitere Diskussionen darüber bitte ich in einen eigenen Thread zu verlegen.
Markus K. schrieb: > Nein. Diese Netze haben immer eine Trainings- und eine Ausführungsphase > und in letzterer lernen sie nicht dazu. Was aber durchaus interessant wäre. Geht das? Kann man freie LLM weiter anlernen? Gerade für Sachen die man selbst macht fände ich das durchaus interessant.
Rene K. schrieb: > Was aber durchaus interessant wäre. Geht das? Kann man freie LLM weiter > anlernen? Gerade für Sachen die man selbst macht fände ich das durchaus > interessant. Das kommt aufs Modell drauf an. Aber ja, das kann man durchaus machen. Nennt sich finetuning. Gibt es haufenweise von anderen. Teilweise um Zensierung oder andere Beschränkungen zu umgehen. Oder normale Modelle wurden zum Coding Modell spezialisiert. Dafür braucht man dann aber mehr Speicher und Rechenleistung. Wer also nicht einige zig-hundert k€ in GPU-power hat, muss das per Cloud machen.
Nochmal zu lokalen Modellen. Gerade ist Gemma 4 von Google veröffentlicht worden. Vier Versionen wurden veröffentlicht: 26B-A4B 31B E4B E2B Die E4/2B Modelle sind fürs Handy gedacht. Das 26B Modell läuft auf meiner 16GB RX9070 ziemlich schnell... na ja, ziemlich quantisiert natürlich (gemma-4-26B-A4B-it-UD-IQ4_NL), damit es in den ram passt. Aber dann bekomm ich 2000 t/s Prompt Processing und 95 t/s Text Generation. Zum Vergleich bei meinem DDR4 System ohne GPU liege ich bei <8 t/s PP & <2 t/s TG. Wer das nur ansatzweise ernsthaft nutzen will, ist mit 2t/s nicht zufrieden. Klar, wenn man einen wirklich guten Anforderungskatalog geschrieben hat, kommt am nächsten Morgen vielleicht auch mit 2t/s was sinnvolles raus. Aber zumindest ich muss immer wieder mal was nachbessern lassen. Dann immer 50x so lange zu warten ist absoluter Unsinn. Und die Karte kostet ja auch nur 550€. (Aber 16GB sind ja auch nicht so viel.) Obwohl es laut mehreren Berichten noch ein paar Probleme mit Gemma4 geben soll, scheint mir das ein recht fähiges Modell zu sein. edit Zumindest llama.cpp hat die größten Probleme behoben. Dauert dann etwas, bis ollama die version übernommen hat.
:
Bearbeitet durch User
Christoph M. schrieb: > Hat jemand schon mal KoboldCPP ausprobiert? > Was ist davon zu halten? > https://koboldcpp.com/ Koboldcpp ist auch nur ein llama.cpp Fork. Ich weiß jetzt nicht genau, was da anders dran ist. Anderes WebUI. Die schreiben "Optimized C++ Backend", ich glaube aber kaum, dass die llama.cpp irgendwie voraus sind. Der letzte Commit auf Github ist 2 Wochen her. In LLM-Jahren ist das eine Ewigkeit. Llama.cpp hatte heute schon 8 Commits. Jetzt ist die pure Anzahl der Commits nicht besonders aussagekräftig, aber Llama.cpp unterstützt halt neue Modelle, kobold braucht dafür immer länger. Sowieso, (lokale) LLMs bewegen sich rasend schnell. Klar kann man auch ein 6 Monate altes Modell nutzen, aber meistens gibt es halt was besseres. Wer sich da wirklich für interessiert, sollte sich irgendnen Blog oder so suchen oder besser täglich in ner Community wie https://old.reddit.com/r/LocalLLaMA/ vorbeischauen...
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.