Forum: PC Hard- und Software Teilweise PC Crash, Hardware defekt?

Teilweise PC Crash, Hardware defekt?

von Daniel A. (daniel-a)

17.06.2016 09:08

Angehängte Dateien:

kern.log (1,17 MB)

Lesenswert?

•

▲
▼

Ein Teil meines PCs friert von zeit zu zeit ein, und es wird immer 
haufiger. Heute und vorgestern ist es mir passiert.

Die Symptome sind: Keine Reaktion auf Mauseingaben, ssh funktioniert, 
aber die Shell startet nicht, sondern hängt sich auf. Die firewall VM 
auf dem Rechner und die LXC Container laufen noch, denn ich kan auf den 
Apache Server auf einem davon zugreifen. Postfix und Dovecot fallen aus.

Das Kernel log file  (im Anhang) sieht echt übel aus, aber mir fehlt der 
Anfang davon, deshalb weiss ich nicht was unmittelbar vor dem Ausfall 
passiert.

Wie finde ich heraus, wo das Problem liegt, bzw. ob eine meiner PC 
Komponenten nicht zuverlässig arbeitet?

PS: Ich lasse gerade noch einen SMART Check durchlaufen.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von Kiray (Gast)

17.06.2016 10:28

Lesenswert?

•

▲
▼

What Causes RCU CPU Stall Warnings?
So your kernel printed an RCU CPU stall warning.  The next question is
"What caused it?"  The following problems can result in RCU CPU stall
warnings:
o       A hardware or software issue shuts off the scheduler-clock
        interrupt on a CPU that is not in dyntick-idle mode.  This
        problem really has happened, and seems to be most likely to
        result in RCU CPU stall warnings for CONFIG_NO_HZ_COMMON=n kernels.
o       A bug in the RCU implementation.
o       A hardware failure.  This is quite unlikely, but has occurred
        at least once in real life.  A CPU failed in a running system,
        becoming unresponsive, but not causing an immediate crash.
        This resulted in a series of RCU CPU stall warnings, eventually
        leading the realization that the CPU had failed.
To diagnose the cause of the stall, inspect the stack traces.
The offending function will usually be near the top of the stack.

https://www.kernel.org/doc/Documentation/RCU/stallwarn.txt

In deinem Log kommt eigentlich immer folgendes vor

INFO: rcu_sched detected stalls on CPUs/tasks:
  0-...: (1 GPs behind) idle=6bf/140000000000000/0 softirq=18129309/18129314 fqs=802829 
  (detected by 2, t=824515 jiffies, g=12992049, c=12992048, q=32856)
 Task dump for CPU 0:
 sshd            R  running task        0 14047      1 0x0000000c


Ich würde also mal folgendes Probieren:
1. sshd temporär Deaktivieren und schauen ob es besser wird. Und wenn 
dass nicht hilft
2. CPU0 offline nehmen (mit "echo 0 > 
/sys/devices/system/cpu/cpu0/online"). Aber vorsicht! Manche Systeme 
hängen sich auf, also zuerst Im abgesicherten Modus/"init 
S"/"init=/bin/bash" ausprobieren.

Ach und wenn sich das System aufhängt ist folgendes ser nützlich:
https://www.kernel.org/doc/Documentation/sysrq.txt

(Alle kommandos aktiviren mit "echo 1 >/proc/sys/kernel/sysrq ")

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von Peter D. (peda)

17.06.2016 11:11

Lesenswert?

•

▲
▼

Daniel A. schrieb:
> es wird immer
> haufiger.

Netzteil oder Elkos.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von oderso (Gast)

17.06.2016 11:24

Lesenswert?

•

▲
▼

Wie alt?
Kühler verdreckt?
Speicher mal umstecken. (einfach mal raus und wieder neu reinstecken)
Lüfter (alle) laufen?
Neu Hardware/Software installiert?

u.s.w.

Gruß
oderso

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von michael_ (Gast)

17.06.2016 12:44

Lesenswert?

•

▲
▼

Dazu einen Speichertest laufen lassen.
Und das SATA Kabel neu stecken oder austauschen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von Wegstaben V. (wegstabenverbuchsler)

17.06.2016 13:03

Lesenswert?

•

▲
▼

installiere mal coretemp als Temperaturwächter, und schau dir regelmäßig 
die CPU Temperatur an

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von Daniel A. (daniel-a)

17.06.2016 15:00

Angehängte Dateien:

dmidecode (12,2 KB)
smartctl (4,46 KB)

Lesenswert?

•

▲
▼

Kiray schrieb:
> Ich würde also mal folgendes Probieren:
> 1. sshd temporär Deaktivieren und schauen ob es besser wird. Und wenn
> dass nicht hilft

Dann könnte ich mich aber nichtmehr über ssh auf den Server verbinden.

> 2. CPU0 offline nehmen (mit "echo 0 >
> /sys/devices/system/cpu/cpu0/online"). Aber vorsicht! Manche Systeme
> hängen sich auf, also zuerst Im abgesicherten Modus/"init
> S"/"init=/bin/bash" ausprobieren.

Die Datei gibt es bei mir nicht, aber ich habe eine Datei 
/sys/devices/system/cpu/online, in welcher '0-3' drinsteht.

> Ach und wenn sich das System aufhängt ist folgendes ser nützlich:
> https://www.kernel.org/doc/Documentation/sysrq.txt
>
> (Alle kommandos aktiviren mit "echo 1 >/proc/sys/kernel/sysrq ")

Danke, das ist wirklich praktisch.

oderso schrieb:
> Wie alt?

Ich weiss es nichtmehr so genau, auf jeden fall über 5 Jahre, aber 
weniger als 8 Jahre

> Kühler verdreckt?

Eigentlich nicht, ich werde aber nochmal nachsehen. Alter Staub ist 
wirklich schwer wegzubekommen.

> Speicher mal umstecken. (einfach mal raus und wieder neu reinstecken)

OK. Es ist etwas schwierig da dran zu kommen, vielleicht sollte ich den 
PC mal etwas mehr auseinandernehmen, um Dinge die ich nicht brauche, wie 
z.B. Bluray und DVD Player rauszunehmen.

> Lüfter (alle) laufen?

Ja, aber ich glaube es stimmt etwas mit dem Temperatursensor der CPU 
nicht. Beim Starten bekomme ich die Meldung

[   17.758731] k10temp 0000:00:18.3: unreliable CPU thermal sensor; monitoring disabled

Und sensors liefert:

acpitz-virtual-0
Adapter: Virtual device
temp1:        +35.0°C  (crit = +75.0°C)
nouveau-pci-0200
Adapter: PCI adapter
GPU core:     +1.20 V  
temp1:        +66.0°C  (high = +95.0°C, hyst =  +3.0°C)
                       (crit = +105.0°C, hyst =  +5.0°C)
                       (emerg = +130.0°C, hyst = +10.0°C)


Die +35.0°C kommen mir etwas niedrig vor...


> Neu Hardware/Software installiert?

Eine Ethernetkarte und 2x1GB RAM, um den PC von 2GB auf 4GB aufrüsten zu 
können. 2GB waren für 1 Vollvirtualisierung von PfSense und 10 LXC 
Container auf welchen Web-, Mail-, Tor-, DNS-Server, etc. installiert 
sind etwas zu wenig.

michael_ schrieb:
> Dazu einen Speichertest laufen lassen.
> Und das SATA Kabel neu stecken oder austauschen.

OK, werd ich versuchen. Ich habe bereits einmal mit cpuburn ausprobiert, 
ob ich das System so zu crashen kriege, ist aber nichts passiert.

Wegstaben V. schrieb:
> installiere mal coretemp als Temperaturwächter, und schau dir regelmäßig
> die CPU Temperatur an

Das liefert bei meinem PC nicht besonders aussagekräftige Resultate.


Im Anhang noch die SMART Werte und die Ausgabe von dmidecode.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von Lukey S. (lukey3332)

17.06.2016 19:53

Lesenswert?

•

▲
▼

Hmm dann würde ich entweder auf einen Kernel-Bug(unwarscheinlich), 
schlechte Elkos oder fehlerhaftes Ram Tippen. Lass mal prime95 beim 
"Torture Test" ~20 Minuten mit "In-place large FFTs" ~40 Minuten mit 
"Blend" laufen. Eventuell auch in der VM. Wie Regelmäßig friert der PC 
den ein?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von rbx (Gast)

17.06.2016 20:34

Lesenswert?

•

▲
▼

Ich würde auf heiße Sommertage tippen, auch wenn bei uns im Moment die 
Erdbeeren ertrinken und bald verschimmeln.
Wegen der teilweise Symptomatik würde ich ein Treiberproblem/Malware 
vermuten und deswegen ein anderes Betriebsystem (cd) testen.
(wenn da noch ein Ramtest dabei, auch gut)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von Jörg E. (jackfritt)

17.06.2016 23:26

Lesenswert?

•

▲
▼

Ich tippe auf RAM unverträglichkeit. Neue Speicher gleiche Charge??? 
Speichtertest durchführen. Aber nich den vom BIOS. Memtest ist dein 
Freund und Feind des Speichers ?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Teilweise PC Crash, Hardware defekt?

von Daniel A. (daniel-a)

17.06.2016 23:52

Lesenswert?

•

▲
▼

Lukas S. schrieb:
> Hmm dann würde ich entweder auf einen Kernel-Bug(unwarscheinlich),
> schlechte Elkos oder fehlerhaftes Ram Tippen. Lass mal prime95 beim
> "Torture Test" ~20 Minuten mit "In-place large FFTs" ~40 Minuten mit
> "Blend" laufen. Eventuell auch in der VM.

OK, hab ich gemacht, gab keine Fehler und auch sonst lief alles normal 
weiter.

> Wie Regelmäßig friert der PC den ein?

Früher ca. einmal pro Monat, damals jeweils mit der Fehlermeldung "BUG: 
soft lockup - CPU stuck for 23s!" in den Logfiles. Die Meldung "INFO: 
rcu_sched detected stalls on CPUs/tasks:" ist neu, und innerhalb von 3 
Tagen ist mir der PC vorher auch noch nie 2mal abgestürzt.

Jörg E. schrieb:
> Ich tippe auf RAM unverträglichkeit. Neue Speicher gleiche Charge???

Die alten RAM sind HYMP112U64CP8-Y5 und die Neuen VS1GB667D2

> Speichtertest durchführen. Aber nich den vom BIOS. Memtest ist dein
> Freund und Feind des Speichers ?

OK, das werde ich dann nächste Woche ausprobieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net