Helló!
Néhány éve beállítottam egy Atom CPU-s szervert otthonra vegyes feladatok ellátására. Szinte az elejétől fogva olyan hibákat produkált, hogy véletlen időközönként (volt amikor naponta, volt amikor csak havonta) a merevlemezt nem tudta elérni (IO errorokat dobált). Ekkor a tűzfal kivételével szinte semmi sem működött, bár a szerver futott. Ilyen esetekben a reset segített, ideiglenesen mindig megjavult.
Ezekről a hibákról csináltam fotókat is amikor el tudtam kapni (mivel a HDD-re nem tudott írni a logok teljesen üresek):
Korábban javasolták, hogy futtassak le egy destruktív badblocksot a HDD-n. Ezt lefuttatva (24 órán át dolgozott) semmit nem talált, minden rendben volt. Mivel a probléma csak zavaró volt, így biztos ami biztos alapon beállítottam egy RAID-1 tömböt, majd nem foglalkoztam tovább a problémával.
Egészen eddig azon kívül, hogy zavaró volt néha újraindítani a gépet nem volt probléma, viszont 3 napja a RAID tömb elkezdett szétesni:
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sdb2[1]
39061432 blocks super 1.2 [2/1] [_U]
md4 : active raid1 sdb6[1] sdc6[0]
886769528 blocks super 1.2 [2/2] [UU]
md0 : active raid1 sdb1[1] sdc1[0]
145396 blocks super 1.2 [2/2] [UU]
md3 : active raid1 sdc5[0]
48826296 blocks super 1.2 [2/1] [U_]
md2 : active raid0 sdb3[1] sdc3[0]
3903488 blocks super 1.2 512k chunks
unused devices:
A tömbökhöz tartozó csatolási pontok:
Fájlrendszer Méret Fogl. Szab. Fo.% Csatol. pont
/dev/md1 37G 8,3G 27G 24% /
udev 988M 4,0K 988M 1% /dev
tmpfs 399M 652K 398M 1% /run
none 5,0M 0 5,0M 0% /run/lock
none 997M 4,0K 997M 1% /run/shm
/dev/sda4 358G 245G 95G 73% /backup
/dev/md0 138M 100M 32M 77% /boot
/dev/md3 46G 1,1G 43G 3% /var
/dev/sda1 493G 403G 65G 87% /filmek1
/dev/md4 833G 424G 367G 54% /home
/dev/sda2 493G 437G 31G 94% /filmek2
/dev/sda3 493G 391G 78G 84% /storage
Ennek eredményeképp a gépet lekapcsoltam, és több ismerősöm ötletei alapján a következőkkel próbálkoztam:
- A HDTune-t lefuttatva mindkét merevlemezen semmit nem talált
- A HDD Sentinelt lefuttatva mindkét merevlemezen az egyik HDD-re kommunikációs hibát írt (ettől eltekintve a merevlemez perfect minősítést kapott)
- Ezek alapján a kommunikációs hibás merevlemez SATA kábelét lecseréltem, a RAID tömböt alkotó hdd-ket pedig másik SATA portra dugtam át
Ezeket a módosításokat akartam kipróbálni a jelenlegi rendszerrel, de a linux továbbra is rossznak látja a fenti RAID tömböket. A kérdésem, hogy hogyan tudnám "újraépíteni" a két hibás tömböt, hogy újratesztelje a gép? A gond, hogy mind az md1 és md3 fontos csatolási pontokon vannak, nem lehet őket csak úgy menet közben leválasztani, live cd-ről bootolva viszont nem tudom hogyan lehetne ezekkel foglalkozni (hiszen az már nem a rendszer sajátja, valószínűleg nem építi fel a RAID tömböt magától). További gond, hogy a két tömb pont két különböző HDD-n látszik rossznak, így leválasztani sem tudom az egyiket és visszatenni, mint új merevlemez. Megoldható a probléma teljes backup és a teljes tömb újraépítése nélkül?
Illetve még a fenti furcsa IO errorokkal ha valaki találkozott már, akkor mit javasol, mit teszteljek/dobjak ki? Mivel a HDD minden teszten átment eddig kezdek gyanakodni az alaplapra.