Ich suche einen aktuellen PC für Simulationen und paralleles Berechnen in MATLAB und pSpice, sowie die Abarbeitung eigener C-Programme. Ferner sollen FPGA-Synthesen darauf laufen, vorwiegend Co-Simulationen, die aus MATLAB heraus gestartet werden. Die Simulationen und Synthesen laufen überwiegend im Hintergrund während weitersimuliert wird bzw. es laufen mehrere und unterschiedliche Programme werden genutzt, sodass Parallelität auch dann genutzt werden kann, wenn das Programm nur single threaded ist / wäre. (was meine momentan noch sind :-) ) Per Suche bin ich auf "AMD Threadripper mit bis zu 64 CPU Kernen" gestoßen. Kennt und benutzt den jemand? Bringt der etwas im Vergleich zu anderen CPU-Konfigurationen? An Beratungs-Beiträgen habe ich nur den hier gefunden, aber da wird nicht viel beantwortet. Beitrag "Welche Hardware gibt es für paralleles Rechnen?"
Lies hier: https://www.servethehome.com/lenovo-thinkstation-p620-amd-ryzen-threadripper-pro-5995wx-remix-edition-review-supermicro-nvidia-pny-sabrent-highpoint/ https://www.youtube.com/watch?v=SX0eYfcPFn4&t=1s Da hast Du dann auch einen ungefähren Preisrahmen. Mit Supermicro habe ich bislang immer sehr gute Erfahrungen gemacht. Sowas als 19"-Maschine mit zwei GPUs ist bei meinem Arbytegeber in mehrfacher Ausfertigung als KI-Server im Einsatz. Sei aber gewarnt, dass so ein System mit zwei GPUs locker einen Heizlüfter ersetzen kann, was die Wärmeentwicklung und den Stromverbrauch angeht. Dabei schlägt jede GPU mit 300-400W zu. fchk PS: Matlab ist mit dem Intel Compiler und Intel Arithmetik-Bibliotheken gebaut worden, und der Code vom Intel Compiler läuft auf Intel CPUs deutlich besser (was auch Absicht ist). Von Intel gibts aber aktuell kein wirkliches Äquivalent zum Threadripper Pro - die infrage kommenden CPUs haben weniger Kerne und sind deutlich teurer, und es sind meist 19" Server, die so dermaßen laut sind, dass Du sie nicht mal im benachbarten Raum stehen haben willst, sondern eher in den Keller verbannen willst. Beim High-End Workstation-Markt ist AMD recht alleine. Rede mal mit Mathworks, was die Dir für Deine Matlab-Applikationen empfehlen.
:
Bearbeitet durch User
Frank K. schrieb: > Von Intel gibts aber aktuell kein wirkliches Äquivalent Wo das Thema gerade "Intel" ist: Die sind ziemlich am Abstinken gegen AMD, kann das sein? Auf LinkedIN gab es vor Tagen einen gehypten Artikel, in dem sich gleich mehrere Personen, darunter auch einige namhafte User sowie ehemalige Mitarbeiter von Intel darüber auslassen, wie schlafmützig Intel in den letzten 10 Jahren war. Wenn das so alles stimmt, was man da so liest und was es an Einschätzungen gibt, hat es den Anschein, als sei Intel in den letzten 15 Jahren durch eine geheime Schwester von Angela Merkel geleitet worden
Kai D. schrieb: > wie schlafmützig Intel in den letzten 10 Jahren war. Wobei die neueste AMD Generation mittlerweile AVX-512 an Bord hat, wenngleich in 2 Hälften implementiert. Und dabei trotzdem verdammt gut abschneidet, verglichen mit Intels AVX-512 in voller Breite. Nützt natürlich nur was, wenn die Software etwas damit anfangen kann. Für wann wurde Sapphire Rapids eigentlich ursprünglich avisiert? Intels erste ernsthaft neue Servergeneration seit den immer wieder neu aufgekochten 14nm Chips, und wieder mal verzögert auf 2023. Schlafmützig trifft es aber nicht ganz. Intel hatte bei solchen Chips seit jeher auf gute Fertigungstechnik mit ausreichender Ausbeute bei grosser Chipfläche gesetzt. Lange Zeit mit grossem Erfolg. Immer abwechselnd eine neue Mikroarchitektur auf bestehender Fertigung und danach eine neue Fertigung mit kaum veränderter Mikroarchitektur, genannt Tick-Tock. Damit vermeidet man eigentlich Risiken, wenn eine der beiden Neuheiten nicht aus dem Quark kommt. Nur fiel Intel diesmal mordsmässig auf die Schnauze, weil sich die Fertigung in der ursprünglich als 10nm klassifizierten Technik über Jahre verzögerte und auch danach nur mit vergleichsweise kleiner Chipfläche nutzbar war. Das liess sich mit dieser Strategie nicht mehr auffangen. Bei Mobil- und Desktop läuft das mittlerweile rund, aber bei grossen Serverchips offenbar immer noch nicht so richtig. AMD hatte aus der Not eine Tugend gemacht, weil sie die Zen 2 Generation für eine Fertigungstechnik konzipierten, die damals weit in der Zukunft lag. Wäre das bei TSMCs 7er Fertigung so gelaufen wie bei Intels 10er, wäre AMD mittlerweile tot. Statt dessen konzipierten sie eine risikomindernde Lösung mit mehreren kleinen Chiplets statt einem Riesenchip und konnten basierend auf dieser Strategie die gleichen Chiplets nicht nur paarweise in PCs, sondern im 8er-Pack auch für Serverchips nutzen. Ein Weg, den auch Intel künftig bei Serverchips gehen wird.
:
Bearbeitet durch User
Wobei alles seine Vor- und Nachteile hat. In Intels Serverprozessoren sind die Cores sehr viel besser vernetzt als in AMDs EPYCs. Der Weg zwischen den Cores und zum L3-Cache ist zwar auch unterschiedlich lang, aber der Unterschied ist vergleichsweise harmlos. AMDs 64-Kerner hingegen erinnern deutlich an Boards mit 8 CPU-Sockeln (bei Zen 2 mit zwei Quadcore-Chips pro Sockel, bei Zen 3 mit einem Octacore), mit zentraler Northbridge für RAM und I/O. Nur ist das eben alles auf einem Sockel integriert. Und diese verteilte Struktur hat Nachteile. Jedes der 8 Chiplets hat seinen eigenen L3-Cache und wenn ein Prozess mehr als 8 logische Cores mit gemeinsamem Speicher nutzt (16 ab Zen 3), dann kann ziemlich viel Datenverkehr zwischen den Chiplets ablaufen, und das ist vergleichsweise schweinelangsam. Wenn man diese EPYCs in Virtualisierungshosts vieler eher kleiner VMs verwendet, passt diese Struktur wunderbar. Die VMs sind ja alle unabhängig voneinander und lassen sich dementsprechend gut verteilen. Besteht die vorgesehene Hauptlast hingegen aus einem einzigen Prozess mit intensiver Nutzung gemeinsamen RAMs, passt AMDs Struktur weniger gut. Wer etwas mit dem Begriff NUMA anfangen kann: Man kann die EPYCs aus Sicht des RAMs als eine Node betrachten, oder aus Sicht der L3-Caches aus 16 Nodes (Zen 2) bzw 8 Nodes (Zen 3). Entsprechendes Tuning auf BIOS- und Hypervisor-Ebene kann durchaus nützlich sein. Mal ist die eine Betrachtungsweise sinnvoller, mal die andere. PS: Die Threadripper unterscheiden sich strukturell nicht sehr von den EPYCs. Es mag Unterschiede in RAM-Bandbreite und PCIe geben, aber die Struktur ist gleich.
:
Bearbeitet durch User
Ralf schrieb: > Kennt und benutzt den jemand? Bringt der etwas im Vergleich zu anderen > CPU-Konfigurationen? Das bring dir nur was, wenn dein Problem stark parallelisierbar ist, oder vom sehr grossen L3 Cache profitiert. Und wenn das so ist, dann ist eine NVidea GPU schneller. Bei den meisten Anwendungen sind diese Server CPUs langsamer, da der Spitzentakt viel zu gering ist. Wie sollen die sonst auch die Wärme wegbekommen? Eine aktuelle Desktop CPU hat über 5 GHz und braucht über 200 Watt bei Vollast...
(prx) A. K. schrieb: > Wobei die neueste AMD Generation mittlerweile AVX-512 an Bord hat, > wenngleich in 2 Hälften implementiert. Und dabei trotzdem verdammt gut > abschneidet, verglichen mit Intels AVX-512 in voller Breite. Nützt > natürlich nur was, wenn die Software etwas damit anfangen kann. Ich dachte, dass Intel in den Xeons Server CPUs seit Ewigkeiten echtes AVX-512 hat? Das bringt bei numerischen Problemen bis zu einem Faktor 2.
:
Bearbeitet durch User
Udo K. schrieb: > Bei den meisten Anwendungen sind diese Server CPUs langsamer, da der > Spitzentakt viel zu gering ist. Es geht eigentlich um Threadripper, und die takten in der Spitze erheblich höher als die EPYCs.
Udo K. schrieb: > Ich dachte, dass Intel in den Xeons Server CPUs seit Ewigkeiten echtes > AVX-512 hat? Zu AVX-512 hat Intel insgesamt eine On-Off-Beziehung, zumindest bei den non-Xeons (*). Mal ist es drin, mal nicht. Ob das bei allen Xeon drin ist, oder bloss bei manchen, weiss ich nicht. > Das bringt bei numerischen Problemen bis zu einem Faktor 2. Zumindest gegenüber solchen ohne AVX-512. AMD hat das sparsamer implementiert als Intel, indem eine 512er Operation in 2x256 gerechnet wird. Das ist nominell langsamer, aber in der Praxis offenbar auch nicht übel. Michael "Benchmark" Larabel war jedenfalls beeindruckt: "From these results I am rather impressed by the AVX-512 performance out of the AMD Ryzen 9 7950X. While initially being disappointed when hearing of their "double pumping" approach rather than going for a 512-bit data path, these benchmark results speak for themselves. For software that can effectively make use of AVX-512 (and compiled so), there is significant performance uplift to enjoy while no negative impact in terms of reduced CPU clock speeds / higher power consumption (with oneDNN being one of the only exceptions seen so far in terms of higher power draw)." https://www.phoronix.com/review/amd-zen4-avx512 *: Sogar mein Tiger Lake Laptop hat es drin. Aber beim Alder Lake wurde es in letzter Minute abgeschaltet, weil nur dessen P-Cores das können, nicht aber die E-Cores, und das wohl Ärger riskierte. Beim mir führte das bei intensiver Nutzung zur Reduktion der Taktfrequenz deutlich unter das übliche Mass, anfangs sogar zu Emergency-Throttling.
:
Bearbeitet durch User
(prx) A. K. schrieb: > Zumindest gegenüber solchen ohne AVX-512. AMD hat das sparsamer > implementiert als Intel, indem eine 512er Operation in 2x256 gerechnet > wird. Das ist nominell langsamer, aber in der Praxis offenbar auch nicht > übel. Michael Larabel war jedenfalls beeindruckt: Ich hoffe, Intel zieht auch am Desktop mit echtem 512 Bit AVX-512 nach... die Technik ist ja schon lange da und Windows 11 sollte inzwischen besser mit unterschiedlichen Kernen umgehen können. Wenn sie es geschickt machen, dann läuft auch AVX2 Software schneller, indem die parallelen 254-Bit Alu/Multiplizierer Einheiten verdoppelt werden (zumindest wenn nicht die Speicherbandbreite limitiert).
Udo K. schrieb: > die Technik ist ja schon lange da und Windows 11 sollte > inzwischen besser mit unterschiedlichen Kernen umgehen können. Wobei die P- und E-Cores zwar unterschiedlich aufgebaut sind, aber den exakt gleichen Befehlssatz aufweisen. Das ist im OS deutlich einfacher handhabbar, als Cores mit unterschiedlichen Befehlssätzen. Intel wird AVX-512 nicht ohne Grund in letzter Minute wieder einkassiert haben, denn dessen P-Cores haben es im Prinzip drin. Aber vielleicht sind denen auch bloss ein paar Chips in Rauch aufgegangen. Die thermische Last ist dabei ziemlich grenzwertig.
Wir verwenden einen Threadripper 3970X mit 128GB RAM als Arbeitsrechner in einem Team von 5 Softwareentwicklern für Embedded Linux Kram (VSCode remote von den Windows Clients, dann compilieren, unit tests, debugging usw.). Das war die beste Investition der letzten Jahre.
(prx) A. K. schrieb: > Aber vielleicht sind denen > auch bloss ein paar Chips in Rauch aufgegangen. Normalerweise gehen ja Grafikkarten in Rauch auf. Betriebsystem für mehrere Rechner (+Graka) gibt es ja eigentlich gar nicht. Das könnte man aber schon nutzen, wenn man Rechenkraft braucht. Das müsste dann irgendwie heißen Parallelworks-OS oder so Zum OS Programmieren bräuchte man das Know How aus den 50er 60er Jahren, will man alles in C oder Fortran machen. (man könnte auch in Haskell entwickeln - wenn es denn mehr Hardware-Freundlichkeit mit an Bord hätte, das braucht man nun mal zum Programmieren eines Betriebssytems.) Aktuell gibt es etwas mehr Möglichkeiten und Ansätze. Die sind aber auch eher auf Cuda und/oder auf mehrere Rechenquellen bezogen. Auf einem Rechner allein, würde ich erstmal schauen, was mit der Grafikkarte geht, (wie bezahlbar auch noch) und ob eine 2. (oder 3.) Grafikkarte möglich ist und was es an bewährten Praktiken gibt. Darüberhinaus sollte die CPU schon performant sein - aber vor allem so, dass sie die Grafikkarte(n) nicht ausbremst. Man schaut also: Welche Grafikkarte nehme ich? Und danach sucht mal Prozessor und Hauptplatine nach Workflow und Stabilitätskriterien aus. Da würde man vermutlich eher bei Intel landen. Oder gibt es bei AMD auch eine richtig gute (+Cuda) Mathe-Bib?
rbx schrieb: > Oder gibt es bei AMD auch > eine richtig gute (+Cuda) Mathe-Bib? https://developer.amd.com/amd-aocl/ fchk
Sollte so ein Xeon Gold nicht 32 Kerne haben? Und zwei davon kann man in eine HP Z8 stecken.
intel® schrieb: > Sollte so ein Xeon Gold nicht 32 Kerne haben? Bis zu 32. Es geht aber um AMD, nicht um dich.
:
Bearbeitet durch User
(prx) A. K. schrieb: > intel® schrieb: >> Sollte so ein Xeon Gold nicht 32 Kerne haben? > > Bis zu 32. Es geht aber um AMD, nicht um dich. Er kann sich wohl keine HP Z8 leisten. Und so ein richtiger 32 kerniger Xeon Gold steht ja auch mit $1000 in der Preisliste.
intel® schrieb: > Und so ein richtiger 32 kerniger Xeon Gold steht ja auch mit > $1000 in der Preisliste. Liste $3000-$3200. Aber der einzig wahre und richtige Xeon ist sowieso der Platinum 9282 mit 56 Kernen, im 2-Sockel-System. ;-)
:
Bearbeitet durch User
(prx) A. K. schrieb: > intel® schrieb: >> Und so ein richtiger 32 kerniger Xeon Gold steht ja auch mit >> $1000 in der Preisliste. > > Liste $3000-$3200. Aber der einzig wahre und richtige Xeon ist sowieso > der Platinum 9282 mit 56 Kernen, im 2-Sockel-System. ;-) Die $1000 waren ja auch vor der Chipkrise. Oder es gab sie gerade zum Supersondersparrabatt. Und die anderen passen bestimmt nicht mehr in eine Z8.
Kaufe einen Ryzen 7950X, ggf. auch einen Intel 13900K. Die Threadripper haben leider noch nicht die aktuelle Zen 4 Architektur und so lange es nicht der Server für Release Builds ist kannst auf ECC usw pfeifen und lieber die Performance des Ryzen genießen.
Ralf schrieb: > Ferner > sollen FPGA-Synthesen darauf laufen, vorwiegend Co-Simulationen, Mit welchem HDL Simulator? Hast du schon Questa Lizenzen oder noch was kleineres von Mentor? Wie viel schneller ein Questa gegenüber einer PE weiss ich nicht, weil hier immer gespart werden muss. Jedenfalls ist eine PE doppelt so schnell wie eine ME. Wenn ich aber alle ME Lizenzen für mich blockiere (4) und mehere Testcases parallel Simuliere, dann bin ich wieder doppelt so schnell wie mit der einzelnen PE Lizenz :-) Matlab co-simulation paralell zu machen, kommt wohl nicht in frage, weil dann ja auch mehrere Matlab/Simulink/HDL-verifier Lizenzen nötig sind. Da ist es egal ob ein Xeon Gold 1000€ kosten würde im Vergleich zu den Lizenzkosten.
Μαtthias W. schrieb: > Wir verwenden einen Threadripper 3970X mit 128GB Klingt interessant. (prx) A. K. schrieb: > Es geht eigentlich um Threadripper, und die takten in der Spitze > erheblich höher als die EPYCs. Klingt noch interessanter! Ich suche einen PC für Renderanimationen und 3D-Grafik.
San Miguel de Joker schrieb: > Kaufe einen Ryzen 7950X, ggf. auch einen Intel 13900K. Hab heute zufällig Benchmarks angeschaut und hätte den auch empfohlen. Der hat auch eine viel bessere Single Thread Performance.
Re D. schrieb: > San Miguel de Joker schrieb: > >> Kaufe einen Ryzen 7950X, ggf. auch einen Intel 13900K. > > Hab heute zufällig Benchmarks angeschaut und hätte den auch empfohlen. > Der hat auch eine viel bessere Single Thread Performance. Vor allem hat er da nicht die veraltete Workstation/Serverplattform mit den oft schlechten Kühlern und noch deutlich höherer TDP. Die Gaming Kasper schrauben da zwei 140mm Lüfter auf so einen Noctua NH-D15 und nehmen ein gut belüftetes Gehäuse und schon hört man nichts mehr wenn die Kiste arbeitet. Wenn ich da an die übliche Workstation denke mit dem 60-90mm Lüfter und irgendwelchen Tunneln Frage ich mich manchmal, ob man die 5$ an der Kühlung sparen muss, der normale Nutzer will daneben ja keine Ohrschützer tragen... Ja, ECC in allen Belangen gibt es nicht. Dafür sind die Prozessoren schneller und billiger, man kann einfach alle 1-2 Jahre das System austauschen und fährt noch immer billiger und schneller als mit einer richtigen "Workstation". Der 7950X ist echt der Wahnsinn für Arbeitsrechner, gerade Softwareentwickler profitieren enorm: https://www.phoronix.com/review/amd-ryzen-7900x-7950x-linux/4
(prx) A. K. schrieb: > Wobei die P- und E-Cores zwar unterschiedlich aufgebaut sind, aber den > exakt gleichen Befehlssatz aufweisen. Das ist im OS deutlich einfacher > handhabbar, als Cores mit unterschiedlichen Befehlssätzen. Sind sie im OS überhaupt sinnvoll handhabbar? Es ist ja letztlich nicht das OS selbst, das die Instruktionen nutzt, in denen sich die Befehlssätze unterscheiden, sondern die Anwendungen. Die sind ja für den jeweiligen Befehlssatz compiliert und können den schlecht zur Laufzeit wechseln, abhängig davon, auf welchem Kern sie gerade laufen. Natürlich könnte das OS die fehlenden Instruktionen emulieren, aber das wäre äußerst ineffizient.
Rolf M. schrieb: > Sind sie im OS überhaupt sinnvoll handhabbar? Die Cores unterscheiden sich nicht im Befehlssatz. Die P-Cores könnten zwar im Prinzip AVX-512, die Unterstützung wurde aber in letzter Minute abgeschaltet. Bei ersten Exemplaren war es noch einschaltbar. Siehe Link unten. Solche Detailunterschiede sind aber durchaus denkbar. Das OS muss sich dann eben merken, welcher Thread wo laufen kann. Da Intel die P-Cores mit der Möglichkeit von AVX-512 konzipierte, liegt es nahe, dass man diesen Weg vorsah. Auch völlig verschiedene ISAs sind möglich, und die hat heute jeder im PC. Aber anders, in Form der GPU. PS: https://www.pcgameshardware.de/Alder-Lake-S-Codename-277726/News/Intel-stoppt-die-Nutzung-von-AVX-512-1390453/
:
Bearbeitet durch User
Rolf M. schrieb: > Sind sie im OS überhaupt sinnvoll handhabbar? Was macht ein make/gcc mit mehreren Threads mit diesen asymmetrischen Kernen eigentlich?
"A thread's CPU affinity mask determines the set of CPUs on which it is eligible to run." https://man7.org/linux/man-pages/man2/sched_setaffinity.2.html Das Pendant in Windows: (auch manuell seit Urzeiten im Task Manager) https://learn.microsoft.com/en-us/windows/win32/api/winbase/nf-winbase-setthreadaffinitymask "Automatic Core Specialization for AVX-512 Applications" https://os.itec.kit.edu/downloads/2019_MA_Brantsch_AVX512_Fault_and_Migrate.pdf
:
Bearbeitet durch User
Udo K. schrieb: > echtes Udo K. schrieb: > Ich dachte, dass Intel in den Xeons Server CPUs seit Ewigkeiten echtes > AVX-512 hat? Das bringt bei numerischen Problemen bis zu einem Faktor 2. "Echtes" AVX-512 zieht den Takt total runter. Intel hat sich da komplett verrannt.
San Miguel de Joker schrieb: > Was macht ein make/gcc mit mehreren Threads mit diesen asymmetrischen > Kernen eigentlich? Nichts.
Low Frequency schrieb: >> Ich dachte, dass Intel in den Xeons Server CPUs seit Ewigkeiten echtes >> AVX-512 hat? Das bringt bei numerischen Problemen bis zu einem Faktor 2. > > "Echtes" AVX-512 zieht den Takt total runter. > Intel hat sich da komplett verrannt. Das ist auch schon wieder Geschichte...
Low Frequency schrieb: > "Echtes" AVX-512 zieht den Takt total runter. Wer das ausprobieren will: Der y-cruncher eignet sich gut dafür, Linux und Windows: http://www.numberworld.org/y-cruncher/ In der Rechenleistung bringt es wirklich einen deutlichen Vorteil, auch wenn die langfristige Taktrate unter jene fällt, die bei normalen Stresstests erreicht wird. Mein Tiger Lake liegt beim y-cruncher dank AVX-512 erheblich ober seiner sonstigen Gewichtsklasse. Achtung: Man testet damit auch das Temperaturmanagement des Systems. Bei mir geht es voll an die im jeweiligen Profil eingestellte Grenze. Anfangs landete ich intermittierend im throttling auf 0,x GHz, aber nach Systemupdates legte sich das. > Intel hat sich da komplett verrannt. Es gibt zwei Szenarien dafür. Einmal Dauerleistung, bei der man wie beschrieben an der thermischen Grenze hängt. Und andererseits kurzfristige Spitzenleistung, bei der dies nicht so kritisch ist. Auch die AES-NI Befehle profitieren davon, und die könnten z.B. bei Disk-Encryption nützlich sein.
Udo K. schrieb: > Das ist auch schon wieder Geschichte... Zumindest bei Laptop- und Desktop-CPUs von Intel. Mindestens bei besseren Xeons soll es aber drinbleiben, weil das für Rechencluster wichtig sein kann. Mein 15W Laptop mit der Gen11 CPU hat es jedoch. Und AMD in Zen 4 double pumped, was immer noch besser abschneidet als 256-Bit AVX. Da die Ryzen-Cores die gleichen wie die EPYC-Cores sind, ergibt sich das sehr logisch, denn anders als Intel hat AMD bislang keine unendliche Vielfalt gleicher Chips mit unterschiedlich freigegebenen Features.
:
Bearbeitet durch User
LTspice 17.1.5 unterstützt jetzt auch mehr als 16 Threads.
Abdul K. schrieb: > LTspice 17.1.5 unterstützt jetzt auch mehr als 16 Threads. Danke für die Info. Ja, Spice ist so ein Kandidate, der sehr von der Anzahl der Cores profitiert.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.