Ein Teil meines PCs friert von zeit zu zeit ein, und es wird immer haufiger. Heute und vorgestern ist es mir passiert. Die Symptome sind: Keine Reaktion auf Mauseingaben, ssh funktioniert, aber die Shell startet nicht, sondern hängt sich auf. Die firewall VM auf dem Rechner und die LXC Container laufen noch, denn ich kan auf den Apache Server auf einem davon zugreifen. Postfix und Dovecot fallen aus. Das Kernel log file (im Anhang) sieht echt übel aus, aber mir fehlt der Anfang davon, deshalb weiss ich nicht was unmittelbar vor dem Ausfall passiert. Wie finde ich heraus, wo das Problem liegt, bzw. ob eine meiner PC Komponenten nicht zuverlässig arbeitet? PS: Ich lasse gerade noch einen SMART Check durchlaufen.
1 | What Causes RCU CPU Stall Warnings? |
2 | |
3 | So your kernel printed an RCU CPU stall warning. The next question is |
4 | "What caused it?" The following problems can result in RCU CPU stall |
5 | warnings: |
6 | |
7 | ... |
8 | |
9 | o A hardware or software issue shuts off the scheduler-clock |
10 | interrupt on a CPU that is not in dyntick-idle mode. This |
11 | problem really has happened, and seems to be most likely to |
12 | result in RCU CPU stall warnings for CONFIG_NO_HZ_COMMON=n kernels. |
13 | |
14 | o A bug in the RCU implementation. |
15 | |
16 | o A hardware failure. This is quite unlikely, but has occurred |
17 | at least once in real life. A CPU failed in a running system, |
18 | becoming unresponsive, but not causing an immediate crash. |
19 | This resulted in a series of RCU CPU stall warnings, eventually |
20 | leading the realization that the CPU had failed. |
21 | |
22 | ... |
23 | |
24 | To diagnose the cause of the stall, inspect the stack traces. |
25 | The offending function will usually be near the top of the stack. |
26 | |
27 | ... |
https://www.kernel.org/doc/Documentation/RCU/stallwarn.txt In deinem Log kommt eigentlich immer folgendes vor
1 | INFO: rcu_sched detected stalls on CPUs/tasks: |
2 | 0-...: (1 GPs behind) idle=6bf/140000000000000/0 softirq=18129309/18129314 fqs=802829 |
3 | (detected by 2, t=824515 jiffies, g=12992049, c=12992048, q=32856) |
4 | Task dump for CPU 0: |
5 | sshd R running task 0 14047 1 0x0000000c |
Ich würde also mal folgendes Probieren: 1. sshd temporär Deaktivieren und schauen ob es besser wird. Und wenn dass nicht hilft 2. CPU0 offline nehmen (mit "echo 0 > /sys/devices/system/cpu/cpu0/online"). Aber vorsicht! Manche Systeme hängen sich auf, also zuerst Im abgesicherten Modus/"init S"/"init=/bin/bash" ausprobieren. Ach und wenn sich das System aufhängt ist folgendes ser nützlich: https://www.kernel.org/doc/Documentation/sysrq.txt (Alle kommandos aktiviren mit "echo 1 >/proc/sys/kernel/sysrq ")
Wie alt? Kühler verdreckt? Speicher mal umstecken. (einfach mal raus und wieder neu reinstecken) Lüfter (alle) laufen? Neu Hardware/Software installiert? u.s.w. Gruß oderso
Dazu einen Speichertest laufen lassen. Und das SATA Kabel neu stecken oder austauschen.
installiere mal coretemp als Temperaturwächter, und schau dir regelmäßig die CPU Temperatur an
Kiray schrieb: > Ich würde also mal folgendes Probieren: > 1. sshd temporär Deaktivieren und schauen ob es besser wird. Und wenn > dass nicht hilft Dann könnte ich mich aber nichtmehr über ssh auf den Server verbinden. > 2. CPU0 offline nehmen (mit "echo 0 > > /sys/devices/system/cpu/cpu0/online"). Aber vorsicht! Manche Systeme > hängen sich auf, also zuerst Im abgesicherten Modus/"init > S"/"init=/bin/bash" ausprobieren. Die Datei gibt es bei mir nicht, aber ich habe eine Datei /sys/devices/system/cpu/online, in welcher '0-3' drinsteht. > Ach und wenn sich das System aufhängt ist folgendes ser nützlich: > https://www.kernel.org/doc/Documentation/sysrq.txt > > (Alle kommandos aktiviren mit "echo 1 >/proc/sys/kernel/sysrq ") Danke, das ist wirklich praktisch. oderso schrieb: > Wie alt? Ich weiss es nichtmehr so genau, auf jeden fall über 5 Jahre, aber weniger als 8 Jahre > Kühler verdreckt? Eigentlich nicht, ich werde aber nochmal nachsehen. Alter Staub ist wirklich schwer wegzubekommen. > Speicher mal umstecken. (einfach mal raus und wieder neu reinstecken) OK. Es ist etwas schwierig da dran zu kommen, vielleicht sollte ich den PC mal etwas mehr auseinandernehmen, um Dinge die ich nicht brauche, wie z.B. Bluray und DVD Player rauszunehmen. > Lüfter (alle) laufen? Ja, aber ich glaube es stimmt etwas mit dem Temperatursensor der CPU nicht. Beim Starten bekomme ich die Meldung
1 | [ 17.758731] k10temp 0000:00:18.3: unreliable CPU thermal sensor; monitoring disabled |
Und sensors liefert:
1 | acpitz-virtual-0 |
2 | Adapter: Virtual device |
3 | temp1: +35.0°C (crit = +75.0°C) |
4 | |
5 | nouveau-pci-0200 |
6 | Adapter: PCI adapter |
7 | GPU core: +1.20 V |
8 | temp1: +66.0°C (high = +95.0°C, hyst = +3.0°C) |
9 | (crit = +105.0°C, hyst = +5.0°C) |
10 | (emerg = +130.0°C, hyst = +10.0°C) |
Die +35.0°C kommen mir etwas niedrig vor... > Neu Hardware/Software installiert? Eine Ethernetkarte und 2x1GB RAM, um den PC von 2GB auf 4GB aufrüsten zu können. 2GB waren für 1 Vollvirtualisierung von PfSense und 10 LXC Container auf welchen Web-, Mail-, Tor-, DNS-Server, etc. installiert sind etwas zu wenig. michael_ schrieb: > Dazu einen Speichertest laufen lassen. > Und das SATA Kabel neu stecken oder austauschen. OK, werd ich versuchen. Ich habe bereits einmal mit cpuburn ausprobiert, ob ich das System so zu crashen kriege, ist aber nichts passiert. Wegstaben V. schrieb: > installiere mal coretemp als Temperaturwächter, und schau dir regelmäßig > die CPU Temperatur an Das liefert bei meinem PC nicht besonders aussagekräftige Resultate. Im Anhang noch die SMART Werte und die Ausgabe von dmidecode.
Hmm dann würde ich entweder auf einen Kernel-Bug(unwarscheinlich), schlechte Elkos oder fehlerhaftes Ram Tippen. Lass mal prime95 beim "Torture Test" ~20 Minuten mit "In-place large FFTs" ~40 Minuten mit "Blend" laufen. Eventuell auch in der VM. Wie Regelmäßig friert der PC den ein?
:
Bearbeitet durch User
Ich würde auf heiße Sommertage tippen, auch wenn bei uns im Moment die Erdbeeren ertrinken und bald verschimmeln. Wegen der teilweise Symptomatik würde ich ein Treiberproblem/Malware vermuten und deswegen ein anderes Betriebsystem (cd) testen. (wenn da noch ein Ramtest dabei, auch gut)
Ich tippe auf RAM unverträglichkeit. Neue Speicher gleiche Charge??? Speichtertest durchführen. Aber nich den vom BIOS. Memtest ist dein Freund und Feind des Speichers ?
Lukas S. schrieb: > Hmm dann würde ich entweder auf einen Kernel-Bug(unwarscheinlich), > schlechte Elkos oder fehlerhaftes Ram Tippen. Lass mal prime95 beim > "Torture Test" ~20 Minuten mit "In-place large FFTs" ~40 Minuten mit > "Blend" laufen. Eventuell auch in der VM. OK, hab ich gemacht, gab keine Fehler und auch sonst lief alles normal weiter. > Wie Regelmäßig friert der PC den ein? Früher ca. einmal pro Monat, damals jeweils mit der Fehlermeldung "BUG: soft lockup - CPU stuck for 23s!" in den Logfiles. Die Meldung "INFO: rcu_sched detected stalls on CPUs/tasks:" ist neu, und innerhalb von 3 Tagen ist mir der PC vorher auch noch nie 2mal abgestürzt. Jörg E. schrieb: > Ich tippe auf RAM unverträglichkeit. Neue Speicher gleiche Charge??? Die alten RAM sind HYMP112U64CP8-Y5 und die Neuen VS1GB667D2 > Speichtertest durchführen. Aber nich den vom BIOS. Memtest ist dein > Freund und Feind des Speichers ? OK, das werde ich dann nächste Woche ausprobieren.
:
Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.