Kedves Fórumosok!
Nemrégen vásároltam új alkatrészeket, és azóta sorozatos rendszerösszeomlást tapasztalok. A rendszer adatai: Kubuntu 24.04 kde plasma felülettel. Hardverek: Alaplap: Tuf Gaming B650M-E wifi. CPU: AMD Ryzen 5 8600G, 32GB (4x8GB) Kingstone fury ddr5 5200MT/s cl40-40-40 1.25V XMP, Intel SSD: 760p. BIOS-t firssítettem. X11 és Wayland grafikus szervereket is próbáltam. A CPU-ban a c-state funkciót tiltottam. Egészen váratlan helyzetekben a rendszer lefagy. A cpu dolgozik ezerrel. A rendszer semmire nem reagál. Nem játszom a gépen. Hogyan tudnék információkat kapni a hiba okáról? Van-e valakinek ilyen tapasztalata, esetleg tanácsa? Előre is köszönöm a segítséget. Még annyit, hogy memória-tesztben (1óra) nem tapasztaltam hibát.

    pethammer memória-tesztben (1óra) nem tapasztaltam hibát.

    Ennyi memóriánál a minimum teszt 1 nap.

    pethammer Egészen váratlan helyzetekben a rendszer lefagy.

    Telepítsd a htop-ot.
    Lefagyás tapasztalásakor: CTRL+Alt+F1
    türelemmel vársz. Elképzelhető, hogy így be tudsz jutni terminálos üzemmódba, és ott futtatod a htop-ot (sudo htop)
    Bár ha a CPU pörög ezerrel, akkor ez nem kifagyás szerintem, hanem leállás.

    RAM teszt:
    az 1 óra nagyon kevés. De én inkább "PASS"-ban mérném. Abból minimum 3-at kell hiba mentesen mennie.

      sömike Köszönöm a gyors reagálásokat! Mi a különbség a kifagyás és a leállás között? A kifagyás szoftveres okra utal? A leállás meg hardveresre? Hogyan kell ram-ot tesztelni "PASS"-ban? Én a grub-menü által kínált opciót használtam.

        pethammer Hogyan kell ram-ot tesztelni "PASS"-ban?

        RAM-ot a memtest nevű izével tesztelünk.
        Ha elindítod, mindenféle varázslatokat csinál, írkál a RAM-ba ezt-azt, visszaolvassa, komparálja.
        Végigcsinálja a játékait a (majdnem) teljes memóriatartományon.

        Ha végül eléri a célját, végignézte a (majdnem) teljes tartományt, kezdi elölről.
        Ez a második PASS. De ki is írja.

        pethammer
        "A cpu dolgozik ezerrel."
        Ilyenkor ha kiadod a:
        watch -n 2 sensors
        parancsot, mutatja a maghőmérsékleteket? ... Magasak?

        pethammer Mi a különbség a kifagyás és a leállás között?

        A kifagyás, lefagyás az a jelenség amikor a rendszer ugyan nem áll le, de olyan fázisba jutott, amiből nem tud kimozdulni. Tipikusan ilyenkor van kép a monitoron, de a kép nem változik, az egér nem reagál. Vagy ha van is változás az iszonyatosan lassan következik be. Emberi elvárások szerinti mértékkel mérve: soha, geológia értelemben: azonnal.
        A rendszer igazából még életben van, de számunkra olyan mintha megállt volna, belefagyott volna a pillanatba.
        Ilyenkor linuxosok előnyben vannak, mert - kis türelemmel, de - át tudnak jelentkezni konzolra.

        Ha a kijelzőről is eltűnik a kép,, akkor biztosra vehetjük, hogy a rendszer nem megy. Talán a RAM és a cpu gyorsítótára is kiürült. Hozzáteszem hogy én a "cpu is dolgozik ezerrel" mondatodat olvasva a Hirtelen megemelkedett CPU ventilátor fordulatszámra, zajra asszociáltam.

        DcNdrew A kifagyás szoftveres okra utal? A leállás meg hardveresre?

        Az a szép a számítástechnikában, hogy mindkettőnek lehet mindkettő az oka.
        Nálad én elsősorban hardverre gondolnék, hisz' annak cseréje után figyelted meg e bosszantó dolgot

        Köszönöm. Elkezdetem a RAM-modulokat (8GB) egyenként tesztelni. 1-2 PASS-t megvárok. Azért írtam azt, hogy a cpu ezerrel pörög, mert a az asztalra kitett cpu-indikátor mutatta, hány százalékos a proci terhelése. Érdekes volt, hogy most az utóbbi "leállás" fokozatosan ment végbe. Előszőr a böngésző állt le, a hang megakadt, és csak ugyanazt "ismételgette", a böngésző nem reagált, de egyes ablakokat még tálcára tudtam küldeni. De ez nagyon gyorsan megszűnt. A cpu-szenzor kb. 90%-ot mutatott, és innen még a -- remélem, jól csináltam -- ALT-SysRq+REISUB sem segített, vagy én voltam türelmetlen... Nagy ventillátor hangot nem hallottam. Meg kell vallani, ideges is voltam, mert egy online továbbkézésen voltam, ahonnan már 3.szorra vágott így ki a rendszer. Az is jó lenne, ha tudnám, hogy a rendszer esetleg hol helyezhetett el logokat a hibárkról.

          pethammer a rendszer esetleg hol helyezhetett el logokat a hibárkról.

          Szerintem a /var/log/
          alatt 🙂

          Gyorsteszt a rendszerlefagyásra: megnyomod a NumLock gombot a klaviatúrán. Ha a megnyomást követi a felette levő LED állapotváltozása, akkor a rendszer él, nem fagyott le.

          A /var/log-ot még nem néztem meg. Az utolsó ram modult tesztelem. Eddig még semmi hiba. 2 PASS-ig megyek. Félek, hogy az alaplappal lesz gond vagy esetleg a tápegységgel... A tápom: CoolerMaster mwe 500W (white). Arra még emlékszem, hogy NumLock gombra nem reagált a billentyűzet.

          A memóriatesztek 2 PASS-szal hibátlanok voltak. Feltehetőleg a RAM-ok hibátlanok. A /var/log könyvtáron belül nem tudom, hogy mit keressek, és ott is mire figyeljek, hogy a hiba okát megtalálhassam. Még annyit, hogy ext4-es fájlrendszert használok. De talán nem ez okozza az időnkénti fagyásokat. Nem tudom, az alaplapot, a tápegységet, a processzort, hogyan tudnám kizárni, avagy tesztelni. Az intel-lel semmi gondom nem volt, de most az AMD, bár lehet, hogy nem ez a baj, nagyon elkedvetlenített. Különben a CPU-ban lévő Radeon 760M GPU-t használom videókártyaként. Köszönök előre minden segítséget.

            pethammer
            A logok között természetesen a legfrissebbeket kell keresni. Hogy a logokban mit kell keresni az már nehezebb téma. Az biztos, hogy jó sok bejegyzés keletkezik a rendszer indulásakor. Ebben az esetben viszont épp nem ez az érdekes rész.
            Ugyanakkor elképzelhető, hogy valós időben elkaphatod a tettest, ha nyomsz az esemény kialakulásának kezdetén egy CTRL+Alt+F1 billenytű kombót.
            Ekkor be tudsz jelentkezni konzolos felületre. (Alt+F7 -el pedig vissza grafikusra, de ezt csak akkor ajánlom ha működik rendesen a gép)
            Szóval konzolos felületen tudod monitorozni a hibásan működő rendszered. pld a htop segítségével.

            Most nézem... A hőmérsékletről nem írtál semmit.
            Pedig ha te magad legóztad össze a gépet, akkor ezt is ellenőrizni kell.

            Jelenleg fut a rendszer. Várom az újabb leállást, lefagyást. A hőmérsékletet is figyelem. Erre a psensor-t használom. Most fut a htop is, hogy lássam, hol, mi okozhatja a hibát. A hőmérsékleteim jók: cpu: 30, nvme ssd-k 25, a cpu gpu-ja 27 celsius fokosak a psensor szerint. A cpu hűtése a gyári hűtés. A házban van még egy 8 cm-es ventillátor is. Mint mondtam , nem játszom, programozással ütöm az időmet (tanítok), meg office, böngésző, filmnézés, zenehallgatás stb.

            A memóriamodulok tesztelése óta nem jelentkezett hiba. Lehetséges, hogy a modulok ki és betétele megoldott egy érintkezési hibát?
            Amit még tettem. Leválasztottam az alaplahoz kapott wifi-antennát. Ezt úgysem használtam, mert nem tudtam életet lehelni bele linuxon. Esetleg ez okozhatott zavart?
            Az egyik lefagyás után néztem a logokat. Nem lehet, hogy ezek az üzenetek éppen erre a hibára utalnak?

            journalctl -p err -b
            dec 02 11:23:41 teo kernel: hub 6-0:1.0: config failed, hub doesn't have any ports! (err -19)
            dec 02 11:23:41 teo kernel: usbhid 9-1:1.1: couldn't find an input interrupt endpoint
            dec 02 11:23:41 teo systemd-udevd[603]: /etc/udev/rules.d/40-libsane.rules:26 GOTO="libsane_rules_end" has no matching label, ignoring.
            dec 02 11:23:41 teo systemd-udevd[603]: /etc/udev/rules.d/S99-2000S1.rules:26 GOTO="libsane_rules_end" has no matching label, ignoring.
            dec 02 11:23:42 teo (udev-worker)[683]: event7: Failed to call EVIOCSKEYCODE with scan code 0x7c, and key code 190: Invalid argument
            dec 02 11:23:44 teo kernel: Bluetooth: hci0: Opcode 0x0c03 failed: -110
            dec 02 11:23:45 teo kernel: snd_hda_intel 0000:0c:00.6: no codecs initialized

              pethammer
              Szia!
              Sztem a felsorolt hibák egyike sem feltétlen okozna fagyhalált
              Az első egy port nélkül maradt hub beállítása nem sikerült,
              A második egy usb csatlakozó és/vagy annak alaplapi kezelése mondta be az unalmast
              A harmadik esetben a keresi a libsane_rules_end labelt, de nem találja a jelzett udev ruleban, ezért kihagyja
              A negyedik ua mint az előbbi csak másik udev ruleban
              Az ötödik a nem szokványos billentyűzeteknek segítene betölteni a különleges keyekhez a keycode-ot de rossz argumentum van nekije megadva. (Amennyire rémel ez egy systemd bug volt és nem valszínű hogy javítva lesz)
              A hatodik a kékfog drivere nem akarja az igazat. (Volt itt is issue, vmi Mediatek wifi/BT chip drivere bugos. Elvileg van rá patch)
              A hetedik esetben az intel hangkarinak nincsen beállított kodekje.
              A fentiek közül egyiknek sem kellenne olyan tragikusnak lennie, hogy ettől lehaljon a kernel. Kivéve persze, ha vmelyik loopba kerül. Akkor előbb-utóbb elfogy a memória és/vagy a hely a logoknak, aztán a processzor, majd amikor a kernel kezdi kilőni a fontosabb processeket is, akkor egy idő után beáll a fagyhalál 🙂
              Simán lehetett érintkezési hiba is. De elvileg annak nyomának kéne lennie a syslogban is.

              Köszönöm a magyarázatot. Egyelőre várom az újabb leállást. Vagyis nem várom, de még azóta nem történt baj. A BIOS-ban is újra auto-ra állítottam a c-state funkciót. Szóval már három napja nincs fagyás.