【故障描述】
某公司的一臺(tái)服務(wù)器組了一個(gè)raid5磁盤陣列有兩塊磁盤先后掉線,服務(wù)器崩潰。故障服務(wù)器的操作系統(tǒng)為linux redhat 5.3,應(yīng)用系統(tǒng)為構(gòu)架于oracle的一個(gè)oa,數(shù)據(jù)重要,時(shí)間很急。因oracle已經(jīng)不再對(duì)本oa系統(tǒng)提供后續(xù)支持,用戶要求盡可能數(shù)據(jù)恢復(fù)+操作系統(tǒng)復(fù)原。
【初檢結(jié)論】
熱備盤完全無(wú)啟用,硬盤無(wú)明顯物理故障,無(wú)明顯同步表現(xiàn)。數(shù)據(jù)通??苫謴?fù)
【恢復(fù)方案】
1、保護(hù)原環(huán)境,關(guān)閉服務(wù)器,確保在恢復(fù)過程中不再開啟服務(wù)器。
2、將故障硬盤標(biāo)好序號(hào),確保在拿出槽位后可以完全復(fù)原。
3、將故障硬盤掛載至只讀環(huán)境,對(duì)所有故障硬盤做完全鏡像(參考<如何對(duì)磁盤做完整的全盤鏡像備份>)。備份完成后交回原故障盤,之后的恢復(fù)操作直到數(shù)據(jù)確認(rèn)無(wú)誤前不再涉及原故障盤。
4、對(duì)備份盤進(jìn)行RAID結(jié)構(gòu)分析,得到其原來(lái)的RAID級(jí)別,條帶規(guī)則,條帶大小,校驗(yàn)方向,META區(qū)域等。
5、根據(jù)得到的RAID信息搭建一組虛擬的RAID5環(huán)境。
6、進(jìn)行虛擬磁盤及文件系統(tǒng)解釋。
7、檢測(cè)虛擬結(jié)構(gòu)是否正確,如不正確,重復(fù)4-7過程。
8、確定數(shù)據(jù)無(wú)誤后,按用戶要求回遷數(shù)據(jù)。如果仍然使用原盤,需確定已經(jīng)完全對(duì)原盤做過備份后,重建RAID,再做回遷?;剡w操作系統(tǒng)時(shí),可以使用linux livecd或win pe(通常不支持)等進(jìn)行,也可以在故障服務(wù)器上用另外硬盤安裝一個(gè)回遷用的操作系統(tǒng),再進(jìn)行扇區(qū)級(jí)別的回遷。
9、數(shù)據(jù)移交后,由北亞數(shù)據(jù)恢復(fù)中心延長(zhǎng)保管數(shù)據(jù)3天,以避免可能忽略的紕漏。
【恢復(fù)周期】
備份時(shí)間,約2小時(shí)。解釋及導(dǎo)出數(shù)據(jù)時(shí)間,約4小時(shí)。回遷操作系統(tǒng),約4小時(shí)。
1、對(duì)原硬盤進(jìn)行完整鏡像,鏡像后發(fā)現(xiàn)2號(hào)盤有10-20個(gè)壞扇區(qū),其余磁盤,均無(wú)壞道。
2、分析結(jié)構(gòu):得到的最佳結(jié)構(gòu)為0,1,2,3盤序,缺3號(hào)盤,塊大小512扇區(qū),backward parity(Adaptec),結(jié)構(gòu)如下圖:
3、組好后數(shù)據(jù)驗(yàn)證,200M以上的最新壓縮包解壓無(wú)報(bào)錯(cuò),確定結(jié)構(gòu)正確。
4、直接按此結(jié)構(gòu)生成虛擬RAID到一塊單硬盤上,打開文件系統(tǒng)無(wú)明顯報(bào)錯(cuò)。
5、確定備份包安全的情況下,經(jīng)客戶同意后,對(duì)原盤重建RAID,重建時(shí)已經(jīng)用全新硬盤更換損壞的2號(hào)盤。將恢復(fù)好的單盤用USB方式接入故障服務(wù)器,再用linux SystemRescueCd啟動(dòng)故障服務(wù)器,之后通過dd命令進(jìn)行全盤回寫。
6、回寫后,啟動(dòng)操作系統(tǒng)。正常情況下,這時(shí)候所有工作應(yīng)該完成了。不巧的是,因幫頗費(fèi)周折才解決,特意另起一段敘述。
dd所有數(shù)據(jù)后,啟動(dòng)操作系統(tǒng),無(wú)法進(jìn)入,報(bào)錯(cuò)信息為:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied
懷疑此文件權(quán)限有問題,用SystemRescueCd重啟后檢查,此文件時(shí)間,權(quán)限,大小均有明顯錯(cuò)誤,顯然節(jié)點(diǎn)損壞。
重新分析重組數(shù)據(jù)中的根分區(qū),定位出錯(cuò)的/sbin/pidof,發(fā)現(xiàn)問題因2號(hào)盤壞道引起。
使用0,1,3這3塊盤,針對(duì)2號(hào)盤的損壞區(qū)域進(jìn)行xor補(bǔ)齊。補(bǔ)齊后重新校驗(yàn)文件系統(tǒng),依然有錯(cuò)誤,再次檢查inode表,發(fā)現(xiàn)2號(hào)盤損壞區(qū)域有部分節(jié)點(diǎn)表現(xiàn)為(圖中的55 55 55部分):
很明顯,雖然節(jié)點(diǎn)中描述的uid還正常存在,但屬性,大小,以最初的分配塊全部是錯(cuò)誤的。按照所有可能進(jìn)行分析,確定無(wú)任何辦法找回此損壞節(jié)點(diǎn)。只能希望修復(fù)此節(jié)點(diǎn),或復(fù)制一個(gè)相同的文件過來(lái)。
對(duì)所有可能有錯(cuò)的文件,均通過日志確定原節(jié)點(diǎn)塊的節(jié)點(diǎn)信息,再做修正。
修正后重新dd根分區(qū),執(zhí)行fsck -fn /dev/sda5,進(jìn)行檢測(cè),依然有報(bào)錯(cuò),如下圖:
根據(jù)提示,在系統(tǒng)中發(fā)現(xiàn)有多個(gè)節(jié)點(diǎn)共用同樣的數(shù)據(jù)塊。按此提示進(jìn)行底層分析,發(fā)現(xiàn),因3號(hào)盤早掉線,幫存在節(jié)點(diǎn)信息的新舊交集。
按節(jié)點(diǎn)所屬的文件進(jìn)行區(qū)別,清除錯(cuò)誤節(jié)點(diǎn)后,再次執(zhí)行fsck -fn /dev/sda5,依然有報(bào)錯(cuò)信息,但已經(jīng)很少。根據(jù)提示,發(fā)現(xiàn)這些節(jié)點(diǎn)多位于doc目錄下,不影響系統(tǒng)啟動(dòng),于是直接fsck -fy /dev/sda5強(qiáng)行修復(fù)。
修復(fù)后,重啟系統(tǒng),成功進(jìn)入桌面。
啟動(dòng)數(shù)據(jù)庫(kù)服務(wù),啟動(dòng)應(yīng)用軟件,一切正常,無(wú)報(bào)錯(cuò)。
到此,數(shù)據(jù)恢復(fù)及系統(tǒng)回遷工作完成。
本文名稱:服務(wù)器raid5先后兩塊盤掉線的恢復(fù)過程-創(chuàng)新互聯(lián)
URL標(biāo)題:http://jinyejixie.com/article42/dedchc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、App設(shè)計(jì)、品牌網(wǎng)站制作、網(wǎng)站排名、域名注冊(cè)、App開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容