Kedves Fórumosok!
Nemrégen vásároltam új alkatrészeket, és azóta sorozatos rendszerösszeomlást tapasztalok. A rendszer adatai: Kubuntu 24.04 kde plasma felülettel. Hardverek: Alaplap: Tuf Gaming B650M-E wifi. CPU: AMD Ryzen 5 8600G, 32GB (4x8GB) Kingstone fury ddr5 5200MT/s cl40-40-40 1.25V XMP, Intel SSD: 760p. BIOS-t firssítettem. X11 és Wayland grafikus szervereket is próbáltam. A CPU-ban a c-state funkciót tiltottam. Egészen váratlan helyzetekben a rendszer lefagy. A cpu dolgozik ezerrel. A rendszer semmire nem reagál. Nem játszom a gépen. Hogyan tudnék információkat kapni a hiba okáról? Van-e valakinek ilyen tapasztalata, esetleg tanácsa? Előre is köszönöm a segítséget. Még annyit, hogy memória-tesztben (1óra) nem tapasztaltam hibát.
Rendszeres rendszerösszeomlás
pethammer Egészen váratlan helyzetekben a rendszer lefagy.
Telepítsd a htop-ot.
Lefagyás tapasztalásakor: CTRL+Alt+F1
türelemmel vársz. Elképzelhető, hogy így be tudsz jutni terminálos üzemmódba, és ott futtatod a htop-ot (sudo htop)
Bár ha a CPU pörög ezerrel, akkor ez nem kifagyás szerintem, hanem leállás.
RAM teszt:
az 1 óra nagyon kevés. De én inkább "PASS"-ban mérném. Abból minimum 3-at kell hiba mentesen mennie.
sömike Köszönöm a gyors reagálásokat! Mi a különbség a kifagyás és a leállás között? A kifagyás szoftveres okra utal? A leállás meg hardveresre? Hogyan kell ram-ot tesztelni "PASS"-ban? Én a grub-menü által kínált opciót használtam.
pethammer Hogyan kell ram-ot tesztelni "PASS"-ban?
RAM-ot a memtest nevű izével tesztelünk.
Ha elindítod, mindenféle varázslatokat csinál, írkál a RAM-ba ezt-azt, visszaolvassa, komparálja.
Végigcsinálja a játékait a (majdnem) teljes memóriatartományon.
Ha végül eléri a célját, végignézte a (majdnem) teljes tartományt, kezdi elölről.
Ez a második PASS. De ki is írja.
- Szerkesztve
pethammer Mi a különbség a kifagyás és a leállás között?
A kifagyás, lefagyás az a jelenség amikor a rendszer ugyan nem áll le, de olyan fázisba jutott, amiből nem tud kimozdulni. Tipikusan ilyenkor van kép a monitoron, de a kép nem változik, az egér nem reagál. Vagy ha van is változás az iszonyatosan lassan következik be. Emberi elvárások szerinti mértékkel mérve: soha, geológia értelemben: azonnal.
A rendszer igazából még életben van, de számunkra olyan mintha megállt volna, belefagyott volna a pillanatba.
Ilyenkor linuxosok előnyben vannak, mert - kis türelemmel, de - át tudnak jelentkezni konzolra.
Ha a kijelzőről is eltűnik a kép,, akkor biztosra vehetjük, hogy a rendszer nem megy. Talán a RAM és a cpu gyorsítótára is kiürült. Hozzáteszem hogy én a "cpu is dolgozik ezerrel" mondatodat olvasva a Hirtelen megemelkedett CPU ventilátor fordulatszámra, zajra asszociáltam.
DcNdrew A kifagyás szoftveres okra utal? A leállás meg hardveresre?
Az a szép a számítástechnikában, hogy mindkettőnek lehet mindkettő az oka.
Nálad én elsősorban hardverre gondolnék, hisz' annak cseréje után figyelted meg e bosszantó dolgot
Köszönöm. Elkezdetem a RAM-modulokat (8GB) egyenként tesztelni. 1-2 PASS-t megvárok. Azért írtam azt, hogy a cpu ezerrel pörög, mert a az asztalra kitett cpu-indikátor mutatta, hány százalékos a proci terhelése. Érdekes volt, hogy most az utóbbi "leállás" fokozatosan ment végbe. Előszőr a böngésző állt le, a hang megakadt, és csak ugyanazt "ismételgette", a böngésző nem reagált, de egyes ablakokat még tálcára tudtam küldeni. De ez nagyon gyorsan megszűnt. A cpu-szenzor kb. 90%-ot mutatott, és innen még a -- remélem, jól csináltam -- ALT-SysRq+REISUB sem segített, vagy én voltam türelmetlen... Nagy ventillátor hangot nem hallottam. Meg kell vallani, ideges is voltam, mert egy online továbbkézésen voltam, ahonnan már 3.szorra vágott így ki a rendszer. Az is jó lenne, ha tudnám, hogy a rendszer esetleg hol helyezhetett el logokat a hibárkról.
A /var/log-ot még nem néztem meg. Az utolsó ram modult tesztelem. Eddig még semmi hiba. 2 PASS-ig megyek. Félek, hogy az alaplappal lesz gond vagy esetleg a tápegységgel... A tápom: CoolerMaster mwe 500W (white). Arra még emlékszem, hogy NumLock gombra nem reagált a billentyűzet.
A memóriatesztek 2 PASS-szal hibátlanok voltak. Feltehetőleg a RAM-ok hibátlanok. A /var/log könyvtáron belül nem tudom, hogy mit keressek, és ott is mire figyeljek, hogy a hiba okát megtalálhassam. Még annyit, hogy ext4-es fájlrendszert használok. De talán nem ez okozza az időnkénti fagyásokat. Nem tudom, az alaplapot, a tápegységet, a processzort, hogyan tudnám kizárni, avagy tesztelni. Az intel-lel semmi gondom nem volt, de most az AMD, bár lehet, hogy nem ez a baj, nagyon elkedvetlenített. Különben a CPU-ban lévő Radeon 760M GPU-t használom videókártyaként. Köszönök előre minden segítséget.
pethammer
A logok között természetesen a legfrissebbeket kell keresni. Hogy a logokban mit kell keresni az már nehezebb téma. Az biztos, hogy jó sok bejegyzés keletkezik a rendszer indulásakor. Ebben az esetben viszont épp nem ez az érdekes rész.
Ugyanakkor elképzelhető, hogy valós időben elkaphatod a tettest, ha nyomsz az esemény kialakulásának kezdetén egy CTRL+Alt+F1 billenytű kombót.
Ekkor be tudsz jelentkezni konzolos felületre. (Alt+F7 -el pedig vissza grafikusra, de ezt csak akkor ajánlom ha működik rendesen a gép)
Szóval konzolos felületen tudod monitorozni a hibásan működő rendszered. pld a htop segítségével.
Most nézem... A hőmérsékletről nem írtál semmit.
Pedig ha te magad legóztad össze a gépet, akkor ezt is ellenőrizni kell.
Jelenleg fut a rendszer. Várom az újabb leállást, lefagyást. A hőmérsékletet is figyelem. Erre a psensor-t használom. Most fut a htop is, hogy lássam, hol, mi okozhatja a hibát. A hőmérsékleteim jók: cpu: 30, nvme ssd-k 25, a cpu gpu-ja 27 celsius fokosak a psensor szerint. A cpu hűtése a gyári hűtés. A házban van még egy 8 cm-es ventillátor is. Mint mondtam , nem játszom, programozással ütöm az időmet (tanítok), meg office, böngésző, filmnézés, zenehallgatás stb.
- Szerkesztve
A memóriamodulok tesztelése óta nem jelentkezett hiba. Lehetséges, hogy a modulok ki és betétele megoldott egy érintkezési hibát?
Amit még tettem. Leválasztottam az alaplahoz kapott wifi-antennát. Ezt úgysem használtam, mert nem tudtam életet lehelni bele linuxon. Esetleg ez okozhatott zavart?
Az egyik lefagyás után néztem a logokat. Nem lehet, hogy ezek az üzenetek éppen erre a hibára utalnak?
journalctl -p err -b
dec 02 11:23:41 teo kernel: hub 6-0:1.0: config failed, hub doesn't have any ports! (err -19)
dec 02 11:23:41 teo kernel: usbhid 9-1:1.1: couldn't find an input interrupt endpoint
dec 02 11:23:41 teo systemd-udevd[603]: /etc/udev/rules.d/40-libsane.rules:26 GOTO="libsane_rules_end" has no matching label, ignoring.
dec 02 11:23:41 teo systemd-udevd[603]: /etc/udev/rules.d/S99-2000S1.rules:26 GOTO="libsane_rules_end" has no matching label, ignoring.
dec 02 11:23:42 teo (udev-worker)[683]: event7: Failed to call EVIOCSKEYCODE with scan code 0x7c, and key code 190: Invalid argument
dec 02 11:23:44 teo kernel: Bluetooth: hci0: Opcode 0x0c03 failed: -110
dec 02 11:23:45 teo kernel: snd_hda_intel 0000:0c:00.6: no codecs initialized
- Szerkesztve
pethammer
Szia!
Sztem a felsorolt hibák egyike sem feltétlen okozna fagyhalált
Az első egy port nélkül maradt hub beállítása nem sikerült,
A második egy usb csatlakozó és/vagy annak alaplapi kezelése mondta be az unalmast
A harmadik esetben a keresi a libsane_rules_end labelt, de nem találja a jelzett udev ruleban, ezért kihagyja
A negyedik ua mint az előbbi csak másik udev ruleban
Az ötödik a nem szokványos billentyűzeteknek segítene betölteni a különleges keyekhez a keycode-ot de rossz argumentum van nekije megadva. (Amennyire rémel ez egy systemd bug volt és nem valszínű hogy javítva lesz)
A hatodik a kékfog drivere nem akarja az igazat. (Volt itt is issue, vmi Mediatek wifi/BT chip drivere bugos. Elvileg van rá patch)
A hetedik esetben az intel hangkarinak nincsen beállított kodekje.
A fentiek közül egyiknek sem kellenne olyan tragikusnak lennie, hogy ettől lehaljon a kernel. Kivéve persze, ha vmelyik loopba kerül. Akkor előbb-utóbb elfogy a memória és/vagy a hely a logoknak, aztán a processzor, majd amikor a kernel kezdi kilőni a fontosabb processeket is, akkor egy idő után beáll a fagyhalál
Simán lehetett érintkezési hiba is. De elvileg annak nyomának kéne lennie a syslogban is.
Köszönöm a magyarázatot. Egyelőre várom az újabb leállást. Vagyis nem várom, de még azóta nem történt baj. A BIOS-ban is újra auto-ra állítottam a c-state funkciót. Szóval már három napja nincs fagyás.