Hallo zusammen, ich habe hier ein Mainboard, das ich aus verschiedenen Gründen gerne wieder in Betrieb nehmen möchte. Der übliche Weg "was neues kaufen" ist leider keine attraktive Option. Ich habe diverse Dinge bereits getestet und komme jetzt nicht mehr weiter. Daher meine Frage: Hat noch jemand eine Idee? Details: Es handelt sich um ein Supermicro A1SAi-2550F. Einen Schaltplan oder eine Boardmap habe ich dazu nicht leider finden können. Das Board steckte in einem NAS und eines Tages fiel mir auf, dass die Uptime des Systems nur wenige Tage betrug. Ich habe das dann beobachtet und festgestellt, dass das System selbstständig neu bootete. In immer kürzeren Abständen. Zum Schluss war die Betriebszeit auf wenige Minuten gesunken, bevor ein Neustart ausgelöst wurde. Im Log wurde das Auftreten eines NMI gemeldet. Erster Ansatz: Neues Netzteil (da schon einige Jahre im Dauerbetrieb) Mit dem neuen Netzteil bootete das Board dann gar nicht mehr. Aktueller Zustand: Beim Einschalten nimmt das Board 600 mA und nach ca. 20 Sekunden 650 mA auf. Die Power LED leuchtet und nach 20 Sekunden beginnt, eine 2. LED zu blinken. Das ist normal und bei einem zweiten identischen Board genau so. Allerdings habe ich dort die Stromaufnahme noch nicht gemessen. Nach 30 Sekunden startet das Board scheinbar neu und verhält sich genau so wie vorher, jedoch ohne weitere Neustarts. Ein Videosignal wird nicht ausgegeben. Der Monitor geht in Standby. Festplattenzugriffe erfolgen nicht. Einschalt-Beep kommt auch nicht. Spannungen am Prozessor etc. sind vorhanden und stabil. Das Board kann wahlweise mit ATX oder 12v betrieben werden. In beiden Fällen ist das Verhalten gleich. Den BIOS Chip habe ich ausgelötet und ausgelesen. Sah ok aus, habe ihn aber mit einem neuen Inhalt von der Herstellerseite neu beschrieben. Keine Verbesserung. Der PCI Buffer Chip (9ZX21501) und der IPMI Chip (AST2400) werden ca. 30° warm, was ich aber für normal halte. Die Thermalkamera zeigte keine sonstigen Auffälligkeiten. Zugriff über IPMI ist auch nicht möglich. Zumindest nicht über die Default-IP und ich erinnere mich nicht, das umkonfiguriert zu haben. Ich habe ein zweites, identisches Board, aber das ist verbaut und es ist mit Aufwand verbunden, es für Vergleichsmessungen auszubauen. Notfalls wäre das aber möglich. Was könnte ich noch testen? Habe sicher noch anderes versucht, was mir aber im Moment nicht mehr einfällt. Ich würde das Board wirklich gern wiederbeleben. Vielen Dank! Lothar
:
Verschoben durch Moderator
Schon alle Kondensatoren auf Kapazität und ESR geprüft ?
Nein, habe ich nicht. Ware ein Gedanke, aber angesichts der Tatsache dass nahezu alles SMD ist und die Spannungen auch gut aussahen, habe ich das erstmal zurück gestellt. Wäre aber eine Option. Würde aber zuvor versuchen, Kandidaten zu isolieren (Oszilloskop) um nicht alle heraus nehmen zu müssen. Aber die Tatsache, dass der Fehler mit der Zeit stärker wurde, deutet schon in die Richtung "Elko". Danke!
:
Bearbeitet durch User
Beitrag #7828370 wurde vom Autor gelöscht.
UEFI oder Legacy BIOS? Im BIOS-EPROM sind (bei Intel praktisch immer) u.a. die Intel-ME. Die ist bei den Updates der Hersteller meist nicht drin und wird beim herkömmlichen BIOS-Update nicht überschrieben. Wenn Du das BIOS-EPROM im Chip direkt beschrieben hast (z.B mit einem CH341), dann hast Du diese Bereiche überschrieben. Du könntes das BIOS aus Deinem 2. Board auslesen und in das 1. Board schreiben.
> Die Power LED leuchtet und nach 20 Sekunden beginnt, eine 2. LED zu > blinken. Das die LED 8 blinkt soll das auf Probleme wie Fan hinweisen. Steht jedenfalls so im Manual (anbei). ECC-Problem beim Speicher könnte auch ne Ursache für server-reboots sein.
Bradward B. schrieb: >> Die Power LED leuchtet und nach 20 Sekunden beginnt, eine 2. LED > zu >> blinken. > Das die LED 8 blinkt soll das auf Probleme wie Fan hinweisen. Steht > jedenfalls so im Manual (anbei). ECC-Problem beim Speicher könnte auch > ne Ursache für server-reboots sein. Kann natürlich auch die grüne Heartbeat-LED 2 sein, die LED 8 wäre rot
:
Bearbeitet durch User
Das allererste gemacht? Mal die kleine Batterie getauscht und einen BIOS-Reset?
Hallo und Danke für die vielen Antworten! BIOS Batterie tauschen und CMOS löschen war eins der ersten Dinge, die ich gemacht habe. Hatte ich vergessen, zu erwähnen. Danke für das Raussuchen des Manuals! Was blinkt, ist die Heartbeat LED. Die blinkt permanent im Sekundenrhythmus. Also 1 Sekunde an - 1 Sekunde aus. Das tut das funktionierende Board auch. Ist allerdings im Manual recht irreführend beschrieben. Hatte auch erst das Lüftersignal in Verdacht. Aber da sich das funktionierende Board exakt gleich verhält und auch permanent blinkt... Beim ersten Einschalten der Spannung "verschluckt" sie sich nach ziemlich genau 20 Sekunden für einen kleinen Moment. Die Lüfter setzen kurz aus und die Stromaufnahme geht kurz zurück. Daraus schließe ich, dass das Mainboard nach 20 Sekunden eine Art Neustart hinlegt. Und: Es tut irgendwas! Offenbar kommt es (noch vor dem Initialisieren des VGA) an einen Punkt, wo es nicht mehr weiter kommt. Die rote Fehlerstatus LED hingegen blitz beim Anlegen der Versorgungsspannung manchmal sehr kurz auf, bleibt aber dann aus. Zum BIOS: Ja, Du hast recht. Aber auch wenn Legacy/Uefi nicht richtig gesetzt wäre, müsste ich zumindest einen Starttext sehen und eine Möglichkeit haben ins BIOS zu wechseln. Der angeschlossene Bildschirm bekommt aber überhaupt kein Signal und verlässt den Standby Mode nicht. Ja, der Jumper VGA-enable ist richtig gesteckt. Den BIOS Chip des funktionierenden Mainboards möchte ich nur höchst ungern auslöten. Es ist halt ein laufendes System und es war schon schwer (und teuer!) genug, ein zweites identischen Mainboard zu besorgen. Nur wenn ich 100% sicher bin, dass es mein Problem löst. Zu den Elkos: Ich habe jetzt mal mit dem Scope die verschiedenen Schaltregler und Elkos abgetastet. Die Spannungen sind m.E. erstaunlich glatt und sauber. Das Scope meint zwar, es gäbe ca 10% ptp Ripple, aber das mag ich nicht glauben. Schaue ich mir die Linien auf dem Scope an, würde ich eher schätzen maximal 1-2%, eher noch weniger, was ich für ok halte. Elkos auslöten ist sehr schwierig. Da scheint es große Masselayer zu geben. Mit normalem Gerät unmöglich. Ich könnte es mit Unterhitze versuchen. Aber angesichts der glatten Kurven bin ich skeptisch, dass es die Mühe lohnt. Getestet habe ich die 12V Eingang, 5V, 3.3V und 1.0V Ehrlich: Ich habe schon deutlich bizarrere Oszillogramme bei Geräten gesehen, die einwandfrei liefen. Ich werde aber zeitnah sämtliche Spannungen an den Elkos nochmal genauer prüfen. Hab ich was vergessen? Ach ja: ECC Das Board hat jetzt den Speicher, der in dem nachgekauften Mainboard steckte, das einwandfrei funktionierte. Der Originalspeicher, mit dem das Problem zum ersten Mal auftauchte steckt jetzt in dem "neuen" Mainboard und ist produktiv. Außerdem hätte ich dann in den Logs "ECC Error" erwartet und nicht "NMI". Ich denke, der Speicher ist OK.
:
Bearbeitet durch User
P.S.: Wenn ich oben von "Logs" spreche, meine ich immer die vom Betriebssystem (OmniOS) Zum Auslesen der BIOS Logs hatte ich leider keine Gelegenheit mehr, was mich sehr ärgert. Die Elkos sind übrigens in der Tat "through-hole" und nicht SMD. Das hatte ich falsch in Erinnerung. Spricht etwas dagegen, nur zu Testzwecken, gute Elkos parallel zu löten? Das würde den Aufwand des Auslötens eliminieren.
:
Bearbeitet durch User
Lothar M. schrieb: > Den BIOS Chip des funktionierenden Mainboards möchte ich nur höchst > ungern auslöten. Da gibt es für wenig Geld solche Zangen, geht halt nur bei SOIC-Chips mit Pins im 1.27-mm-Raster
Hi Stephan, ja, ich habe auch solche Zangen für verschiedene Rastermaße. Aber in der Vergangenheit habe ich damit durchwachsene Erfahrungen gemacht. Oft versucht das Programmiergerät dann nicht nur den Speicherchip, sondern auch den Embedded Controller und was weiss ich noch alles auf der 3.3V Leitung zu versorgen. Nicht immer sind die Speicher über Dioden entkoppelt. Und selbst wenn - die Datenleitungen sind es nicht. Wenn der Controller mit startet, dann ist Datensalat auf den Leitungen. In diesem Fall war der 25Q64 erfreulich gut zugänglich und konnte sehr leicht ausgelötet werden. Damit war ich auf der sicheren Seite. Danke für den Hinweis!
Lothar M. schrieb: > Es handelt sich um ein Supermicro A1SAi-2550F. Wie alt? > Das Board steckte in einem NAS und eines Tages fiel mir auf, dass die > Uptime des Systems nur wenige Tage betrug. Ich habe das dann beobachtet > und festgestellt, dass das System selbstständig neu bootete. In immer > kürzeren Abständen. Bei älteren Boards erneuere ich neben dem Test mit einem anderen Netzteil immer mal die Wärmeleitpaste zwischen Kühlkörper und CPU. Dünn auftragen, die Paste soll nur Unregelmäßigkeiten in den Oberflächen der Beteiligten ausgleichen. Thermische Probleme können nämlich zum sofortigen Ausschalten der CPU auch beim Starten führen. > Ein Videosignal wird nicht ausgegeben. Der Monitor geht in Standby. Ist denn VGA am Jumper auf dem Board überhaupt freigegeben? > Den BIOS Chip habe ich ausgelötet und ausgelesen. Warum zur Hölle macht man so was? Lothar M. schrieb: > Spricht etwas dagegen, nur zu Testzwecken, gute Elkos parallel zu löten? Nö. Je nachdem sind eh mehrere Elkos neben der CPU parallel geschaltet und dann verkürzt das die Arbeit. Aber Elkos mit niedrigem ESR nehmen.
:
Bearbeitet durch User
Hallo Michael! Wie alt? SEEEEHR alt. Möchte schätzen... 7-8 Jahre? Wärmeleitpaste der CPU kam gleich nach CMOS Batterie Tausch. Die originale Paste war zugegeben schon recht trocken. Der Prozessor hat jetzt neue Polar Therm X10, was für einen passiv gekühlten Intel Atom völlig ausreichen sollte. Dennoch: Das passierte nach dem Netzteilwechsel, als das Ding gar nicht mehr startete. Könnte also durchaus sein, dass die CPU aufgegeben hat. Aber: Man sieht an der Initialisierung (nach 20 Sekunden Rhytmusstörung der Heartbeat LED und Schwankungen in der Stromaufnahme) dass der Prozessor etwas tut. Also: Prozessor hinüber? Möglich. Aber eher nicht wahrscheinlich(?) Ja, VGA ist aktiv gejumpert. >> Den BIOS Chip habe ich ausgelötet und ausgelesen. > >Warum zur Hölle macht man so was? Was jetzt? Auslöten oder auslesen? Auslöten: Siehe meine letzte Antwort. Kurz: War einfach. Auslesen: a) Um ne Kopie auf der Platte zu haben b) Um zu sehen, ob das Ding nicht defekt ist und nur FF enthält c) Frischen Inhalt vom Hersteller rein zu flashen, um gekippte Bits auszuschließen. Kommt vor, sowas. Habe jetzt eben mal an den 10 (9?) relevantesten Elkos und an 2 CPU Tantals je 220uF 16V parallel gelötet. Zugegeben, nicht die massivgoldenen, aber auch keine Billigware. Ergebnis: Keine Änderung. Leider.
Lothar M. schrieb: > Hi Stephan, > > ja, ich habe auch solche Zangen für verschiedene Rastermaße. > Aber in der Vergangenheit habe ich damit durchwachsene Erfahrungen > gemacht. Oft versucht das Programmiergerät dann nicht nur den > Speicherchip, sondern auch den Embedded Controller und was weiss ich > noch alles auf der 3.3V Leitung zu versorgen. Nicht immer sind die > Speicher über Dioden entkoppelt. Und selbst wenn - die Datenleitungen > sind es nicht. Ich nutze flashrom zum flashen, das prüft erst mal ob die Kommunikation geht. Nach dem flashen erfolgt immer ein verify. Funktionierte bisher 1a.
Lothar M. schrieb: > Es handelt sich um ein Supermicro A1SAi-2550F. Aha. Also mit Avoton SOC. Die haben in Stepping B0 einen Serienfehler, bei den ein Ausgangstreiber auf dem LPC-Bus stirbt. Das betrifft alle diese Boards mit einem Prozessor aus dieser Serie (C2xxx) mit diesem Stepping, früher oder später. Auf dem LPC-Bus hängt z.B. der BIOS-Chip. Heißt also: das System bootet dann nicht mehr. https://www.reddit.com/r/homelab/comments/5sb89p/psa_so_it_seems_that_intels_c2xxx_series_of_cpus/ Siehe https://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/atom-c2000-family-spec-update.pdf und da nach AVR54 suchen. Ein Fix, der manchmal helfen soll, wenn der Chip noch nicht komplett tot ist, ist ein Widerstand um die 100 Ohm zwischen LPC_CLKOUT0 (Prozessorpin AG51) und GND. Ansonsten bleibt nur, den Prozessor gegen einen mit Stepping C0 zu tauschen, der den Bug nicht mehr hat. fchk @lme Damit das klar ist: Auch bei Deinem funktionierenden Board tickt die Uhr, wenn es die betroffene Chiprevision hat. Darauf solltest DU Dich einstellen.
:
Bearbeitet durch User
Um fest zu stellen, ob die CPU etwas tut oder nicht, habe ich mich gerade mal getraut, ein paar der DIMM-Kontakte mit dem Oszilloskop anzuschauen. IRGENDWAS müsste doch da zu sehen sein. Ist es auch: Gleichspannungen Verschiedener Höhe bis ca. 1.2 V Kein einziges Signal habe ich gesehen. Habe wahllos mehrere Pins probiert. Entweder ist die CPU hinüber oder sie bekommt ein Signal, dass sie anhält (/Reset und /NMI am Watchdog Jumper sind permanent beide "high"). Wenn es denn die Original CPU Pins sind und nicht irgendwas, das in einen Buffer geht. oder sie bekommt keinen Takt. Aber an die Pins der CPU komme ich natürlich nicht ran. Ich glaube, jetzt wird die Luft dünn.
Frank, Holla! Das klingt gar nicht gut! Muss ich mich mal genauer schlau machen. Danke erstmal für die Links! Ich habe nicht nur eins, sondern zwei weitere dieser Systeme im Gebrauch. Das 2. hat ein Board der selben Familie mit einem etwas größeren Atom C3558 Das OS sagt dazu: The physical processor has 4 virtual processors (0-3) x86 (GenuineIntel 506F1 family 6 model 95 step 1 clock 2200 MHz) Intel(r) Atom(tm) CPU C3558 @ 2.20GHz Derjenige, der baugleich mit dem defekten ist, ist ein Atom C2550 Hier sagt das OS: The physical processor has 4 virtual processors (0-3) x86 (GenuineIntel 406D8 family 6 model 77 step 8 clock 2400 MHz) Intel(r) Atom(tm) CPU C2550 @ 2.40GHz Sagt Dir das was? Danke!
:
Bearbeitet durch User
Lothar M. schrieb: > Das 2. hat ein Board der selben Familie mit einem etwas größeren Atom > C3558 Das ist einer aus der Denverton-Serie. Der hat das Problem nicht. > Derjenige, der baugleich mit dem defekten ist, ist ein Atom C2550 Ich finde keine Informationen darüber, welches Stepping das ist. Einzige Möglichkeit: Kühlkörper runternehmen und nachschauen. Wenn da SR1CT steht, wird der Prozessor irgendwann sterben, und Du wirst nichts dagegen machen können. Wenn da jedoch SR3GS zu finden ist, dann ist das ein gebugfixter Prozessor. Im angehängten Bild ist ein C2338 mit dem Code SR1S8 zu sehen. Der ist auch einer der Kandidaten. fchk
:
Bearbeitet durch User
1000 Dank, Frank! Werde dann so bald wie möglich mal das Gerät zerlegen und nachschauen. Lothar
Lösung: Ich hab jetzt noch mal ein wenig gesucht und hier was gefunden: https://forums.servethehome.com/index.php?threads/bug-in-intel-atom-c2000-series-processors.13173/page-6 Habe einen Widerstand von 150 Ohm (nicht einfach kurz schließen!) zwischen die Pins 1 und 9 des TPM Headers gelötet und das Board bootet jetzt wieder problemlos! Ja, der interne Transistor in der CPU wird dadurch in die Knie gezwungen, aber ich habe einen Beitrag gesehen, dass ein System schon Jahre mit diesem Workaround läuft. Vielleicht ist das ja hilfreich, falls jemand anders auch betroffen ist. Dank an alle für die Hilfe und Tipps! Lothar
●Des|ntegrator ●. schrieb: > BIOS-Reset? Mir fällt auf das Du zu wirklich jedem PC Problem diesen Tipp gibst. Dabei ist das zu eigentlich keinem PC Problem jemals die Lösung, wenn man nicht direkt zuvor Blödsinn im Bios angestellt hat und nicht mehr weiß was es war. Im Prinzip sollte man immer bis zum Bios Setup kommen wenn kein HW Defekt vorliegt.
Michael schrieb: > ●Des|ntegrator ●. schrieb: >> BIOS-Reset? > > Mir fällt auf das Du zu wirklich jedem PC Problem diesen Tipp gibst. Und MIR fällt auf, dass viele der Meinung sind, dass ein BIOS auch mit voller Batterie nicht herum spacken kann. Und je komplexer BIOS/UEFI werden, desto mehr passiert da. Ich habe das schon mit Rechnern zu tun gehabt, die frisch ausgepackt erstmal einen CPU-Error gemorst haben. Nach Reset war das weg. Läptops haben nach nem Reset mit dem Akku viel länger durchgehalten. Ich könnte da noch ne ganze Litanei aufzählen, die sich lediglich mit nem Reset erledigt hat. Das mit dem Reset ist mein Tipp, weil man sich ohne das gemacht zu haben noch NICHT wirklich auf Fehlersuche begeben hat. Das gehört zwingend dazu. Und ist doch per Handgriff so simpel, dass es einfach nicht wahr sein darf, gelle?
Hat dein Board eine Intel Atom C2000 CPU? Es gibt auf EEVBlog einige Beiträge und Vidoes, wo ein Alterungsfehler beschrieben wrid. Ich kann mich nicht mehr genau erinnern, aber irgendwas mit dem CPU-Takt oderso der nicht mehr genug Amplitude hat. z.B.: https://www.eevblog.com/forum/microcontrollers/intel-atom-c2000-failures/ Peter
Beitrag #7838791 wurde vom Autor gelöscht.
Peter D. schrieb: > Hat dein Board eine Intel Atom C2000 CPU? Es gibt auf EEVBlog einige > Beiträge und Vidoes Das Video hat den Titel: EEVblog #1288 - Synology NAS Dumpster Find (REPAIR) EDIT: Hatte noch nicht gelesen dass du das Problem schon gelöst hast, sorry. Peter
:
Bearbeitet durch User
Hallo Peter, Danke für den Hinweis! Frank hatte weiter oben schon recht früh den Hinweis auf den Einbau eines Widerstandes gegeben und einen Wert "um 100 Ohm" oder so genannt. Das war mir zu schwammig und ich wollte erst mehr Details dazu suchen, hatte aber keine Zeit dazu. Jetzt habe ich mich erneut dran gemacht und genauer geschaut und schließlich genauere Infos gefunden. Im Video hat Dave(?) ja 2x 51 Ohm verwendet. In einem anderen Forum wurde von 150 oder 200 Ohm gesprochen. Ich habe zuerst 150 Ohm verwendet und das funktionierte prima. Dann habe ich noch 220 ausprobiert und auch hier: Erfolg. Ich denke mir, man sollte einen möglichst hohen Wert wählen, der einen sicheren Betrieb ermöglicht und gleichzeitig den Prozessor möglichst wenig belastet. In den nächsten Tagen werde ich noch ein paar Versuche anstellen und mir das Signal dabei mit dem Skope anschauen und dann einen brauchbaren Wert für mein(!) Board ermitteln. Ich habe auch gelesen, dass Supermicro selbst Boards die als RMA eingeschickt werden, auf diese Weise "repariert". Leider habe ich keine Aussage entdecken können, welche Widerstände Superrmicro dann einbaut. Wäre interessant zu wissen. Auch interessant wäre, ob ein solcher Fix final ist, oder ob damit zu rechnen ist, dass der Fehler später erneut auftritt und der Widerstand erneut angepasst werden muss oder das Board schließlich dauerhaft ausfällt. Lothar
Lothar M. schrieb: > Auch interessant wäre, ob ein solcher Fix final ist, oder ob damit zu > rechnen > ist, dass der Fehler später erneut auftritt und der Widerstand erneut > angepasst werden muss oder das Board schließlich dauerhaft ausfällt. Es handelt sich hier wohl um den sogenannten "Intel Clock Bug". Den habe ich in meinem NAS (ist dort bekannt) mittels 150 Ohm gefixt. Den Aussagen nach soll es dann jahrelang problemlos weiterfunktionieren, oder nach einiger Zeit ist der Widerstandswert weiter zu verringern. Es bleibt also nur abzuwarten...
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.