EN

Zachraňujeme dáta zo zlyhávajúceho disku. Zn. zadarmo

Nič nevydrží večne (HDD)

V predchádzajúcej kapitole sme si priblížili, ako zhruba fungujú základné technológie pre uskladnenie dát, každá z nich má svoje úskalia.

Pevný disk pozostáva, napriek dlhoročnému vývoju, z veľmi delikátnej mechaniky, a hoci výrobcovia garantujú že disk ustojí pád o sile niekoľkých G, nie vždy tomu tak je, čo mnohí z Vás už zrejme zistili. Ako bolo spomenuté v predchádzajúcej kapitole, vzdialenosť hlavy disku od povrchu platne je veľmi malá, sú to len cca 3 nanometre! Veľmi častým pojmom je tzv. head crash, kedy dôjde k nárazu čítacej-zapisovacej hlavy disku o povrch platne. Je to spôsobené mechanicky, či už nárazom, priveľkými vibráciami alebo nežiadúcimi časticami prachu.

Pokiaľ uvažujeme 7200-otáčkový disk s rozmerom platne 3.5" (t.j. priemer 8.89cm), okraj platne dosahuje obvodovú rýchlosť 120km/h. Po kontakte sa hlava zaryje to krycej vrstvy platne, pokiaľ je však náraz príliš silný, túto vrstvu prederie a zaryje sa do magnetického povrchu disku, čo na ňom zanechá vyryté prstence. Navyše sa hlava vplyvom trenia prehreje a až do vychladnutia je nepoužiteľná. Vplyvom nárazu a vysokých teplôt taktiež dochádza k jej poškodeniu, čo sa nutne nemusí prejaviť okamžite. Keď však disk dospeje do stavu, že len kliká a PC ho vôbec nerozpozná, je to veľmi často spôsobené práve zničením/zlyhaním hláv. Hlava totiž nedokáže správne zistiť svoju polohu, resp. čítať dáta, a behá z jednej strany na druhú, pričom to kliknutie značí náraz do tunelu s ložiskami.

(head crash, resp. "autogram" hlavy na platni, zdroj)

Najmä u starších notebookov bol náraz hlavy kameň úrazu, ak nedajbože spadol počas prevádzky a hlava sa nestihla zaparkovať a zaryla sa do platne. V súčasnosti sú nielen notebookové disky vybavené aktívnou ochranou napr. v podobe detekcie voľného pádu, alebo detekciu výpadku prúdu, v oboch prípadoch sami zaparkujú čítaciu hlavu na bezpečné miesto, správne zaparkované rameno vidno na obrázku vyššie.

Problémom súvisiacim s head crash je tzv. kontaminácia disku. Pevné disky sa vyrábajú v halách, kde je čistota prostredia ďaleko vyššia ako napr. v operačnej sále v nemocnici. Taký Western Digital vyrába disky v halách, ktoré dodržujú štandard ISO 14644-1 triedy 4, čo znamená, že na meter kubický vzduchu môžu byť najviac 3 častice prachu väčšie ako 5 mikrometrov! Hoci sú disky vyrábané v takto čistých halách, nie je možné vylúčiť kontaminovaný kus, t.j. disk, do ktorého sa pri výrobe dostala čiastočka prachu. Potom je len otázkou náhody, či sa častica dostane na platňu a následne nad toto miesto zaparkuje hlava, ktorá sa tým nielenže môže poškodiť, ale okrem toho urobí do platne vryp (head crash), zarytím sa zase uvoľní nejaký ten materiál v podobe prachu, ktorý sa opäť môže dostať medzi hlavu a platňu a problém je na svete. Kontaminácia nemusí nutne nastať počas výroby. Disk má na obale malý otvor pre vyrovnávanie tlaku a vlhkosti, v ktorom je osadený filter. Aj ten však môže časom zlyhať a prepustiť častice prachu do vnútra disku. Nehovoriac o tom, že keď HDD otvoríte doma "na kolene", je okamžite kontaminovaný.

(vzdialenosť hlavy od povrchu je ozaj malá - porovnanie s bežným neporiadkom, zdroj)

Ďalším z mechanických problémov je tzv. stuck head, prilepenie hlavy o povrch disku vplyvom napr. vysokej vlhkosti, v čoho dôsledku sa platne disku ani len neroztočia. V takomto prípade musí dôjsť k výmene hlavy, resp. celého vystavovacieho mechanizmu, čo nie je práve práca pre kutila, nakoľko potrebuje veľmi čisté prostredie a patričné vybavenie, najmä prípravok na bezpečné odlepenie hlavy, viď nasledujúce video:

Výmena platní tiež nie je vec, ktorú by ste robili na kolene, môžete vidieť napr. TU.

Extrémisti pozor! Môžte vyskúšať zmrazenie disku (poriadne zabaleného) na asi -18 stupňov po dobu 12 hodín, vtedy sa hlava odlepí a môžete zálohovať, avšak máte asi 20 minút kým sa disk opäť zahreje a hlava sa znova prilepí. Robíte to však na vlastné riziko a nenesieme za to žiadnu zodpovednosť! Po pár zmrazovacích cykloch Vám disk aj tak odíde do kremíkového neba, no pokiaľ nemáte veľa dát, ktoré by ste chceli zachrániť, tak Vám to môže pomôcť.

Chybné sektory nemusia vzniknúť nutne mechanickým poškodením. Môžu vzniknúť vadou magnetickémo materiálu na povrchu platne, ktorý začne nesprávne reagovať na čítacio-zapisovaciu hlavu. Ďalšou kategóriou sú tzv. softvérovo-vadné sektory, ktoré môžu vzniknúť napr. pri výpadku elektrického prúdu, kedy sa na sektor zapíšu nesprávne dáta alebo vadou hlavy sú naň zapísané chybné údaje, pričom tento sektor je potom označený ako chybný napriek tomu, že je v fyzicky poriadku. Na rozdiel od fyzicky zlého sektora môže byť takýto sektor opravený, napr. low-level formátom. Pokiaľ je však poškodená hlava, disk je aj tak na odpis.

Ako disk vlastne nakladá s chybnými sektormi? Každý disk má k dispozícii tzv. spare sector pool, teda určitý počet náhradných sektorov, kam premapuje chybné sektory. Toto miesto však nie je neobmedzené, navyše premapovanie znižuje výkonnosť disku (namiesto súvislého bloku dát sa musí prečítať len časť, potom premapovaný sektor, až potom sa pokračuje ďalej, čo sa pri rotujúcej platni nedá stihnúť za 1 otáčku). Veľký problém nastáva, keď sa tento pool zaplní, vtedy sú takéto chybné sektory označené ako "pending" t.j. čakajúce na premapovanie, ktorého sa už zrejme nedočkajú, jedine že by medzi chybnými sektormi boli nejaké softvérové. Preto pokiaľ sa Vám na disku začnú objavovať chybné sektory, zvážte urýchlene výmenu! Ich počet bude postupne len narastať.

Ďalším podstatným faktorom životnosti diskuje dodržovanie prevádzkovej teploty. Tá je pre pevné disky 5-50 stupňov Celzia, v závislosti na modeli disku. Aký rozsah náleží Vášmu disku môžte zistiť zo SMART výpisu, ktorý by tieto údaje mal obsahovať, získate ich napr. programom SpeedFan, ktorý vie exportovať SMART dáta na hddstatus.com pre hlbšiu analýzu, mimo iného teplotný rozsah či aktuálny počet realokovaných/pending sektorov. Príliš vysoká teplota sa prejavuje častými BSOD, plus môže poškodzovať mechanické časti disku (životnosť ložísk, ...). Vysokú teplotu disku nemusí nutne spôsobovať len jeho zlé umiestnenie či chladenie, ale napr. chybný napájací zdroj. Osobne som zažil prípad, že prerážajúci zdroj zlikvidoval v jednej zostave po sebe 2 pevné disky, pričom jedným z príznakov "umierania" týchto diskov bola práve ich vysoká teplota. Majiteľ zostavy nadával na výrobcov diskov, no už nevidel, že má lacný zdroj v ktorom mu vytiekli kondenzátory.

Komentáre (12)
Broslowski
Skvelý článok, tlieskam!
Shatterhand
Ja len takú malú poznámočku - termín "plávajúca báza" sa (pokiaľ viem) nepoužíva, používa sa termín "plávajúce hradlo", aj keď v zásade slovo gate/base možno preložiť ako báza/hradlo. Technicky to však nie je správne, pretože báza alias base sa používa len pri určitom type tranzistora(nebudem to rozpitvávať), pri inom zasa gate. Ale inak klobúk dole za článok, muselo to zabrať dosť času naštudovať a tak jasne spracovať !
periodic
Pomocou akeho programu sa da zistit access time na jednotlive sektory (staci iba pri citani), ale pritom sa dal nastavit timeout, pokial ten cas presiahne mnou nastavenu hodnotu? Pri programe Victoria 4.46 vsetko ide, len nereaguje na mnou nastaveny timeout cas a stale sa snazi citat sektory, ktore maju pristup vacsi, alebo su poskodene, ze ich nevie precitat. Taka detekcia potom trva zbytocne dlhu dobu a pritom aj tak nepotrebujem vediet aky je cas pokial je vecsi ako mnou nastavena hodnota (pre mna pouzitelny cas je do 100 ms, ale program sa stale snazi citat sektory aj s niekolko sekundovym pristupom). Chcel by som si zistit este neposkodene casti (obsadit ich particiou) a tie este na nejaky cas pouzivat, ostatne poskodene casti a casti s horsou dobou pristupu by zostali neobsadene (nepouzivane).
Pjetro_de
Dovolim si oponovat v tom, ze RAID je naplast a riesi svetko zalohovanie. Neriesi. Zachrana dat z pokazeneho RAID pola (nie jednotliveho pokazeneho disku, ale celeho RAID pola) je ovela zlozitejsia ako zachrana dat na jednotlivom disku. Ak totiz zlyha SW obsluhujuci RAID, na diskoch su/budu necitatelne nezmysly. Ak zlyha HW (radic RAID pola), asi na tom nebudeme o nic lespie, ba este horsie. Chlapik v BA mi pri zachrane disku povedal, ze tam mava pravidelne placucich adminov, ktori si myslia, ze RAID je svatena voda, ktora vsetko riesi a velmi sa cuduju, ze ked cely RAID klakne, sanca na zachranu je milion-nasobne mensia ako pri jednotlivom HDD. Takze dovolim si poopravit, zalohovanie dnes vieme realizovat jedine kombinaciou tychchto faktorov: 1) Kopirovanim dat na novsie a novsie nosice - aj novsie generacie nosicov, pretoze tie zasratavaju jednak moralne a jednak fyzicky. Nikto neskusal precitat nieco po 500 rokoch, simulacie su na nic. Plati nepriama umera: cim viac dat, tym menej su trvacne. Ryhy na kosti vlka predstavuju zopar bajtov, ale vo volnej prirode prezili 50 tisic rokov. Hieroglyfy na egyptskych skalach (ci "kamenne" pisma inych civilizacii) predstavuju radovo kilobajty az desiatky kilobajtov a prezili 5 tisic rokov. Staroveke zvitky (knihy v staroveku neexistovali) predstavovali mozno uz niekolko desiatok kB ci radovo sto kB a prezili by tiez mozno tisicrocie (keby iní chuji nevypalili Alexandrijsku knihnicu). Knihy obsahujuce radovo stovky kB dat vydrzia storocia (potom sa bohuzial zacnu rozpadavat ako vsetko po istom case, treba kvalitny papier a specialne podmienky skladovania). Jednoducho ako pribuda kapacita, ubuda trvacnost. Dnesne 4 TB disky si istotne nezachovaju data 50 tisic, 5 tisic rokov, ani 500 ci 50 rokov ale blizsie realite je 5 rokov. Samozrejme pri zaobchadzani v kuravickach. 2) Nezavislou redundanciou dat. T.j. mat to na viacerych (dvoch-troch) miestach naraz. Ako som ale pisal vyssie, RAID nie je tento typ, pretoze tie disky nie su nezavisle. Riadi ich softver a hardver RAID pola a ked zlyha ovladanie RAID pola, data budeme tazko dolovat. Idealne je mat teda data na 2-3 diskoch UPLNE, SEPARATNYCH a teda nijako nezavislych. Samozrejme niekto moze vidiet problem, kto to tam bude stale kopirovat. Na to staci disky pripojit raz za den/tyzden/mesiac alebo ako casto chceme a pripravenym batakom si tam v noci (zakial budeme spinkat) natrieskat co chceme ...
nManJofo
Nie je RAID ako RAID samozrejme... pokial mi lahne radic na 5-kovom poli, tak je to pruser, ale u jednotky by to nemal byt problem, nakolko oba disky obsahuju rovnake data.
Pjetro_de
Samozrejme zalezi od RAIDu, sak ich je aj tucet druhov ... Jediny "neohrozeny" by teoreticky mohol byt ten jednoduchy mirroring (na ktory stacia 2 disky), resp. aj velke RAIDy obsahujuce v konecnom dosledku mirroring, aj ked na tom visi napr. 0 ci replikacia celeho pola. Vsetko ostatne co vobec neobsahuje mirroring je dost ohrozene najme 5 a 6. Je sice pekne ze pri 5tke (min 3 disky) moze zlyhat jeden lubovolny disk a pri 6tke (min 4 disky) mozu zlyhat lubovolne dva. Ked zlyha cely RAID, data na kazdom disku su uplne na prd.
Hiro
Ani ten nebude moc super. Staci nejaky vyboj ci skrat kde odidu oba disky naraz. Ja to riesim tak ze mam externy disk kde synchronizujem zalohu kazdy tyzden a inak je vypnuty, odlozeny.
felipe25
Napodobne, super clanok... Vecer vyskusam na dvoch kartach a jednom USB ktore mi uz rok potom co ich getdataback nevie rozchodit, a system ich detekuje.. snad pomoze :)
felipe25
Strana 5: "3.Nabootujte z USB kľúča, bude Vás čakať terminál. V prvom rade musíme disky v systéme identifikovať. K tomu slúži utilita fdisk. Do terminálu napíšte: " mam problem, po boote vidim akesi menu: 1. default 2. start/install ubuntu /myslimP. 3. boot from first harddrive atd.. co mam zvolit? vyskusal som 1 aj 2, no potom zacne len blikat kurzor... ak napisem : sudo fdisk -l nic sa nedeje.. ale ani nevidim ubuntu@ubuntu: ? Co s tym? Diky
nManJofo
Tam len hodit enter a to ubuntu by malo startovat
felipe25
Pytam sa dalej v sekcii vo fore: http://pretaktovanie.zoznam.sk/viewtopic.php?f=13&t=96090 Čítajte viac: http://pc.zoznam.sk/node/16349/talk#comment-50026#ixzz2fpppXac5
pauco
Musim napisat pochvalny koment. Clanok sa cita velmi dobre, ma to hlavu aj patu a na konci konkretny priklad, palec hore.
Pridať nový komentár
TOPlist