Forum: PC Hard- und Software Teilweise PC Crash, Hardware defekt?


von Daniel A. (daniel-a)


Angehängte Dateien:

Lesenswert?

Ein Teil meines PCs friert von zeit zu zeit ein, und es wird immer 
haufiger. Heute und vorgestern ist es mir passiert.

Die Symptome sind: Keine Reaktion auf Mauseingaben, ssh funktioniert, 
aber die Shell startet nicht, sondern hängt sich auf. Die firewall VM 
auf dem Rechner und die LXC Container laufen noch, denn ich kan auf den 
Apache Server auf einem davon zugreifen. Postfix und Dovecot fallen aus.

Das Kernel log file  (im Anhang) sieht echt übel aus, aber mir fehlt der 
Anfang davon, deshalb weiss ich nicht was unmittelbar vor dem Ausfall 
passiert.

Wie finde ich heraus, wo das Problem liegt, bzw. ob eine meiner PC 
Komponenten nicht zuverlässig arbeitet?

PS: Ich lasse gerade noch einen SMART Check durchlaufen.

von Kiray (Gast)


Lesenswert?

1
What Causes RCU CPU Stall Warnings?
2
3
So your kernel printed an RCU CPU stall warning.  The next question is
4
"What caused it?"  The following problems can result in RCU CPU stall
5
warnings:
6
7
...
8
9
o       A hardware or software issue shuts off the scheduler-clock
10
        interrupt on a CPU that is not in dyntick-idle mode.  This
11
        problem really has happened, and seems to be most likely to
12
        result in RCU CPU stall warnings for CONFIG_NO_HZ_COMMON=n kernels.
13
14
o       A bug in the RCU implementation.
15
16
o       A hardware failure.  This is quite unlikely, but has occurred
17
        at least once in real life.  A CPU failed in a running system,
18
        becoming unresponsive, but not causing an immediate crash.
19
        This resulted in a series of RCU CPU stall warnings, eventually
20
        leading the realization that the CPU had failed.
21
22
...
23
24
To diagnose the cause of the stall, inspect the stack traces.
25
The offending function will usually be near the top of the stack.
26
27
...
https://www.kernel.org/doc/Documentation/RCU/stallwarn.txt

In deinem Log kommt eigentlich immer folgendes vor
1
INFO: rcu_sched detected stalls on CPUs/tasks:
2
  0-...: (1 GPs behind) idle=6bf/140000000000000/0 softirq=18129309/18129314 fqs=802829 
3
  (detected by 2, t=824515 jiffies, g=12992049, c=12992048, q=32856)
4
 Task dump for CPU 0:
5
 sshd            R  running task        0 14047      1 0x0000000c

Ich würde also mal folgendes Probieren:
1. sshd temporär Deaktivieren und schauen ob es besser wird. Und wenn 
dass nicht hilft
2. CPU0 offline nehmen (mit "echo 0 > 
/sys/devices/system/cpu/cpu0/online"). Aber vorsicht! Manche Systeme 
hängen sich auf, also zuerst Im abgesicherten Modus/"init 
S"/"init=/bin/bash" ausprobieren.

Ach und wenn sich das System aufhängt ist folgendes ser nützlich:
https://www.kernel.org/doc/Documentation/sysrq.txt

(Alle kommandos aktiviren mit "echo 1 >/proc/sys/kernel/sysrq ")

von Peter D. (peda)


Lesenswert?

Daniel A. schrieb:
> es wird immer
> haufiger.

Netzteil oder Elkos.

von oderso (Gast)


Lesenswert?

Wie alt?
Kühler verdreckt?
Speicher mal umstecken. (einfach mal raus und wieder neu reinstecken)
Lüfter (alle) laufen?
Neu Hardware/Software installiert?

u.s.w.

Gruß
oderso

von michael_ (Gast)


Lesenswert?

Dazu einen Speichertest laufen lassen.
Und das SATA Kabel neu stecken oder austauschen.

von Wegstaben V. (wegstabenverbuchsler)


Lesenswert?

installiere mal coretemp als Temperaturwächter, und schau dir regelmäßig 
die CPU Temperatur an

von Daniel A. (daniel-a)


Angehängte Dateien:

Lesenswert?

Kiray schrieb:
> Ich würde also mal folgendes Probieren:
> 1. sshd temporär Deaktivieren und schauen ob es besser wird. Und wenn
> dass nicht hilft

Dann könnte ich mich aber nichtmehr über ssh auf den Server verbinden.

> 2. CPU0 offline nehmen (mit "echo 0 >
> /sys/devices/system/cpu/cpu0/online"). Aber vorsicht! Manche Systeme
> hängen sich auf, also zuerst Im abgesicherten Modus/"init
> S"/"init=/bin/bash" ausprobieren.

Die Datei gibt es bei mir nicht, aber ich habe eine Datei 
/sys/devices/system/cpu/online, in welcher '0-3' drinsteht.

> Ach und wenn sich das System aufhängt ist folgendes ser nützlich:
> https://www.kernel.org/doc/Documentation/sysrq.txt
>
> (Alle kommandos aktiviren mit "echo 1 >/proc/sys/kernel/sysrq ")

Danke, das ist wirklich praktisch.

oderso schrieb:
> Wie alt?

Ich weiss es nichtmehr so genau, auf jeden fall über 5 Jahre, aber 
weniger als 8 Jahre

> Kühler verdreckt?

Eigentlich nicht, ich werde aber nochmal nachsehen. Alter Staub ist 
wirklich schwer wegzubekommen.

> Speicher mal umstecken. (einfach mal raus und wieder neu reinstecken)

OK. Es ist etwas schwierig da dran zu kommen, vielleicht sollte ich den 
PC mal etwas mehr auseinandernehmen, um Dinge die ich nicht brauche, wie 
z.B. Bluray und DVD Player rauszunehmen.

> Lüfter (alle) laufen?

Ja, aber ich glaube es stimmt etwas mit dem Temperatursensor der CPU 
nicht. Beim Starten bekomme ich die Meldung
1
[   17.758731] k10temp 0000:00:18.3: unreliable CPU thermal sensor; monitoring disabled
Und sensors liefert:
1
acpitz-virtual-0
2
Adapter: Virtual device
3
temp1:        +35.0°C  (crit = +75.0°C)
4
5
nouveau-pci-0200
6
Adapter: PCI adapter
7
GPU core:     +1.20 V  
8
temp1:        +66.0°C  (high = +95.0°C, hyst =  +3.0°C)
9
                       (crit = +105.0°C, hyst =  +5.0°C)
10
                       (emerg = +130.0°C, hyst = +10.0°C)

Die +35.0°C kommen mir etwas niedrig vor...


> Neu Hardware/Software installiert?

Eine Ethernetkarte und 2x1GB RAM, um den PC von 2GB auf 4GB aufrüsten zu 
können. 2GB waren für 1 Vollvirtualisierung von PfSense und 10 LXC 
Container auf welchen Web-, Mail-, Tor-, DNS-Server, etc. installiert 
sind etwas zu wenig.

michael_ schrieb:
> Dazu einen Speichertest laufen lassen.
> Und das SATA Kabel neu stecken oder austauschen.

OK, werd ich versuchen. Ich habe bereits einmal mit cpuburn ausprobiert, 
ob ich das System so zu crashen kriege, ist aber nichts passiert.

Wegstaben V. schrieb:
> installiere mal coretemp als Temperaturwächter, und schau dir regelmäßig
> die CPU Temperatur an

Das liefert bei meinem PC nicht besonders aussagekräftige Resultate.


Im Anhang noch die SMART Werte und die Ausgabe von dmidecode.

von Lukey S. (lukey3332)


Lesenswert?

Hmm dann würde ich entweder auf einen Kernel-Bug(unwarscheinlich), 
schlechte Elkos oder fehlerhaftes Ram Tippen. Lass mal prime95 beim 
"Torture Test" ~20 Minuten mit "In-place large FFTs" ~40 Minuten mit 
"Blend" laufen. Eventuell auch in der VM. Wie Regelmäßig friert der PC 
den ein?

: Bearbeitet durch User
von rbx (Gast)


Lesenswert?

Ich würde auf heiße Sommertage tippen, auch wenn bei uns im Moment die 
Erdbeeren ertrinken und bald verschimmeln.
Wegen der teilweise Symptomatik würde ich ein Treiberproblem/Malware 
vermuten und deswegen ein anderes Betriebsystem (cd) testen.
(wenn da noch ein Ramtest dabei, auch gut)

von Jörg E. (jackfritt)


Lesenswert?

Ich tippe auf RAM unverträglichkeit. Neue Speicher gleiche Charge??? 
Speichtertest durchführen. Aber nich den vom BIOS. Memtest ist dein 
Freund und Feind des Speichers ?

von Daniel A. (daniel-a)


Lesenswert?

Lukas S. schrieb:
> Hmm dann würde ich entweder auf einen Kernel-Bug(unwarscheinlich),
> schlechte Elkos oder fehlerhaftes Ram Tippen. Lass mal prime95 beim
> "Torture Test" ~20 Minuten mit "In-place large FFTs" ~40 Minuten mit
> "Blend" laufen. Eventuell auch in der VM.

OK, hab ich gemacht, gab keine Fehler und auch sonst lief alles normal 
weiter.

> Wie Regelmäßig friert der PC den ein?

Früher ca. einmal pro Monat, damals jeweils mit der Fehlermeldung "BUG: 
soft lockup - CPU stuck for 23s!" in den Logfiles. Die Meldung "INFO: 
rcu_sched detected stalls on CPUs/tasks:" ist neu, und innerhalb von 3 
Tagen ist mir der PC vorher auch noch nie 2mal abgestürzt.

Jörg E. schrieb:
> Ich tippe auf RAM unverträglichkeit. Neue Speicher gleiche Charge???

Die alten RAM sind HYMP112U64CP8-Y5 und die Neuen VS1GB667D2

> Speichtertest durchführen. Aber nich den vom BIOS. Memtest ist dein
> Freund und Feind des Speichers ?

OK, das werde ich dann nächste Woche ausprobieren.

: Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.