Sporadischer harter shutdown von Windows

Wenn aus heiterem himmel der rechner einen harten reset macht, also aus dem betrieb plötzlich ausschaltet und neu hoch fährt liegt etwas ganz gehörig im argen. Die möglichen ursachen können in software und hardware liegen.

Bei software denke ich vornehmlich an treiber, die auf unterster ebene auf die hardware zugreifen, zerschossene dateien bzw. programme und dieser kram eben. Das auftreten des fehlers kann auf unterschiedlichen betriebssystemen natürlich unterschiedliche ursachen haben. Windows XP konnte zum beispiel mit einigen VST-plugins zum neustart gebracht werden.

In richtung hardware ist einiges möglich. Angefangen mit einem überhitzten prozessor, der bei erreichen der grenztemperatur den rechner zum neustart bringt, zu weit übertsakteten oder fehlerhaften RAM, fehlerhaften festplatten oder SDDs, die nicht „wissen“, dass sie probleme haben, grafikkarten mit hitze- oder stromversorgungsproblemen oder netzteile mit kalten lötstellen oder die durch alterung nicht mehr den leistungshunger des rechners bei kurzen spitzenbelastungen und schnellen leistungsanstieg befriedigen können.

Der teufel steckt naütlich im detail. In meinem falle hatte ich das system kurze zeit zuvor erheblich geupdatet und bereinigt. Darum dachte ich zuerst an fehlerhafte software oder das das SSD probleme hat. Die symptomatik zeigte sich auch hauptsächlich nur, wenn Windows schon den login-bildschirm anzeigte oder kurz nach dem login.

Im abgesicherten modus lief das system, das parallel installierte linux machte auch keine probleme. Die fehlersuche ging weiter. Nach einem crash war windows so zerschossen, das ich letztendlich ein, ein paar tage altes system-image wiederherstellen musste. Neustart, läuft. Einen tag später ging es wieder los. War es vielleicht software, die sich im hintergrund auf eine problematische neue version geupdated hatte? Keine ahnung, Die suche ging weiter.

Nach den crashes folgte die auswertung von logs, was nicht viel brachte, da analog dazu, ein mensch post mortem nicht mehr feststellen kann, warum er gestorben ist. War es vielleicht sicherheitssoftware. Beide security-pakete verhielten sich seltsam in den letzten tagen. Aktiviert/deaktiviert, eines deinstalliert und freude, es läuft! Nach einigen stunden könnte ich das „nicht“ an den vorigen satz anhängen -wie so häufig während der ganzen fehlersuche und hier nur nicht erwähnt.

20141204 192045

IT-leute, die solche probleme beruflich beheben, verfügen natürlich über viel erfahrung und können treffsicherere vermutlungen anstellen, was den fehler verursachen könnte, was das abschreiten vieler sackgassen ausschliesst. Auch verfügen sie über bessere ausstattung um besispielsweise zum ausschluss von ursachen kurz verschiedene komponenten des rechners austauschen zu können.

All das habe ich nicht. Zwar kann ich auf inzwischen 25 jahre rechnererfahrung zurückblicken, doch von der bezieht sich nur ein kleiner teil auf behebung solcher fehler. Ebenso habe ich nicht die entsprechnde ersatzhardware einfach mal so rumliegen, um probehalber tauschen zu könnten. Es fehlt an geld mir einen experten leisten zu können. Das führt dazu, das ich jede verdammte sackgasse nach dem ausschlussprinzip selbst abklappern muss. Sucht man im netz nach den symptomen des fehlers, findet man bei den möglichen lödungen immer mehr sackgassen, die man ausschliessen muss. Ein frustrierender, zermürbender, zeitintensiver prozess.

20141204 200642

Ist mal wieder wartezeit angesagt – wie beim zurückschreiben eines systemimages – kommt wieder ins bewusstsein, was das eigentliche vorhaben war, als der fehler auftrat: Ich wollte videos schneiden und meine schnittsoftware besser kennenlernen, experimentieren, einen workflow für diese aufgabe entwerfen. Die einstellungen des Shuttle PRO wollte ich anpassen, abenso die zusatztasten der gaming-tastatur – dafür hatte ich die geräte eigentlich angeschafft – um effizienter herumwerkeln zu können. Dann kommt so ein beschissener fehler und versaut einem den tag. Die tage.

Die fehlersuche ging weiter. Inzwischen hatte ich auch das BIOS überprüft und verschiedene einstellungen auf sichere grundwerte zurückgesetzt. Bei einem zwar nicht extrem übertakteten system, kann man der vollständigkeit halber auch mal auf nummer sicher gehen. Selbstredend verharrte der fehler im system.

Nun kommt kommissar zufall ins spiel: In einem moment das nachdenkens startete ich nur so weil ich es grad im startmenü sah, einen 3D-benchmark. Die software lud, startete, klonk!, neustart. Das war interessant. War es reproduzierbar? Ja. Bei jedem der 3d-benchmarks. Zur sicherheit lud ich noch einen weiteren herunter, de- und reinstallierte den treiber für die graka, doch es blieb dabei.

Ein fortschritt, der fehler war gezielt hervorrufbar. „Kurze“ suche in einigen foren und ein beitrag, der bei einem ähnlichen fehler eines benutzers einen defekt im netzteil vermutete.

Dem ging ich dann nach, überlegte, das die ripplespannung bei grosser last eventuell durch alterung der elkos zu gross wurde, um die karte sicher zu betreiben. Für einen normalen betrieb schien die stromversorgung irgendwie ausreichend zu sein. Prime95 lief ohne probleme. Aber die CPU ist im vergleich zur grafikkarte ja recht sparsam. Als nächstes mal einen test in andere richtung: Die grafikkarte untertakten und einen benchmark laufen lassen. Was vorher zu einem harten reset führte, lief diesmal stabil und wurde instabiler mit jeder erhöhung des taktes.

Ein oszilloskop wäre zum messen des rippelns schön gewesen, einfach nur um mal zu sehen, wie sich die glättung unter last verhält. Leider habe ich keins. Ich versprach mir keine grossartigen erkenntnisse vom messen der spannung an den PCIe-versorgungssteckern an der grafikkarte, schloss aber doch mal das multimeter an.

12,1V±0,02V im normalbetrieb. Beim neuen hochfahren dann die überraschung: Beim erscheinen des login-screens ein abfall auf etwa 12,06V während windows noch im hintergund ein paar sachen lud, dann wieder stabilisierung auf 12,1V. Nach dem login, beim erscheinen der oberfläche ein abfall auf 12,04V mit anschliessender „erhohlung“ auf etwa 12,08V.

Reboot und einloggen während windows noch im hintergrund läd. Abfall auf 12,2V und harter reset. Für so eine messung wäre ein gerät mit höherer messrate besser – aber ich muss mit dem leben, was ich habe. Eine parallelmessung der leistungsaufnahme des gesamtsystems zeigte spitzen zu den zuvor genannten zeitpunkten.

Doch diese messungen haben wenig aussagekraft, liegen die spannungen doch bequem im spezifizierten toleranzbereich für ATX2.2 (±5% entsprechend 11,4V-12,6V). Trotzdem denke ich, das es das netzteil sein könnte. Der fehler ist provozierbar und tritt teilweise in anderen situationen auf. Aus eigener erfahrung bei der reparatur von flachmonitoren und berichten dazu weiss ich, das elkos häufig die ursache von netzteilfehlern sind mit teils merkwürdigen auswirkungen. Das fehlerverhalten ändert sich mit der temperatur der elkos. Manche monitore müssen „warmlaufen“. Leider können elkos die spezifikation der schaltung nicht mehr erfüllen ohne zu poppen oder zu blähen.

Vorläufige enddiagnose: Entweder ein sehr merkwürdiger fehler der grafikkarte oder ein wahrscheinlicherer fehler des netzteils. Letztlich ist das auch eine frage des geldes. Ein netzteil kostet weniger als eine gute grafikkarte.

Das netzteil ist inzwischen zerlegt und auf kalte lötstellen inspiziert (das ist vermutlich die einfachste übung, kann aber in einigen fällen schon die ursache finden). Die elkos auf der 12V-schiene sehen optisch ok aus, was nichts über ihre funktion unter last verrät.

20141206 093404

Ich könnte versuchen sie auszutauschen. Das wäre die günstigste lösung, hat aber erhebliche nachteile: Die qualitätsunterschiede von elkos sind erheblich. Zwar habe ich etliche datenblätter verglichen, doch erfahrung als elektronik-ingenieur wäre von vorteil. Klar, die aufgedruckten werte sind einfach: 2200µF 16V 105°C ~10mm x ~25mm – doch wie beurteile ich ESR, ripple current und die lebenszeit unter last? Im schlimmsten fall haben die neuen elkos ein ähnliches verhalten wie die alten, da sie nicht den spezifikationen entsprechen, die der entwickler für die schaltung vorgegeben hat oder sie geben nach kurzer zeit auf.

conrad kond
Die qual der wahl

Für ein neues netzteil ist kein geld da. Das wären etwa 60€. Ein gebrauchtes wäre vielleicht drin, birgt aber die risiken, die gebrauchte komponenten mit sich bringen. Ist es die grafikkarte – nun ja, dann bin ich aufgeschmissen, um die 250€ werde ich in den nächsten jahren nicht einfach so übrig haben.

Was haben wir aus der geschichte gelernt: Rechner sind teuer in jeder beziehung. Je geringer die zur verfügung stehende geldmenge ist, desto mehr zeit und nerven gehen drauf – bei der benutzung, sowie bei der reparatur.

20141206 093752

Persönliche schlussbemerkung: Als depressiver, der sein leben am unteren limit grad so auf die reihe bekommt, ist ein rechner eine grosse hilfe für den ganz normalen alltagswahnsinn. Organisation, termine, kommunikation, bankgeschäfte werden durch dieses werkzeug für mich erheblich vereinfacht. Sicher läasst sich das auch ohne elektronische hilfe bewerkstelligen, doch es erfordert – zumindest bei mir – so viel mehr an energie und zeit. Früher brachte mich das in situationen völliger überforderung mit anschliessender verdrängung der probleme – meist mit ernsten konsequenzen.

Glücklicherweise kann ich diesen text überhaupt schreiben, da sich noch ein notebook in meinem besitz befindet. Alles oben genannte kann ich auch erstmal damit machen. Doch ist der gedanke für mich sehr beunruhigend kein zweitsystem zu haben weil: Murphy.

Vor einiger zeit stand hier noch ein weiterer rechner eines freundes, mit dem ich im fall der IT-apokalypse auch hätte meine notwendigen dinge organisieren können. Doch dieser rechner hat vor kurzem auch leider den geist aufgegeben und es ist anstrengend und beunruhigend gegen teile des eigenen gehirns anzudenken zu müssen, rational zu bleiben und darin kein fortschreitendes muster zu sehen.

Post a Comment

Your email is never published nor shared. Required fields are marked *