2024-04-25 分類: 網(wǎng)站建設(shè)
為了有效地維護服務(wù)器,服務(wù)器管理員必須主動執(zhí)行硬件和軟件的檢查。服務(wù)器的維護清單必須包括除塵、日志檢查、軟件補丁程序測試等。即使具有服務(wù)器的性能和冗余功能,增加的工作負載集成和可靠性預(yù)期也會損壞服務(wù)器硬件。服務(wù)器維護列表應(yīng)包括系統(tǒng)的物理元素和軟件層配置。還必須考慮以下事實:徹底維護所需的時間、人工時間和測試。使用列表可以幫助服務(wù)器管理員定義目標(biāo)并保持IT團隊的正常運行。
1.制定維護程序。
服務(wù)器管理員經(jīng)常忽略計劃維護窗口。不要等到發(fā)生故障才開始維護,為常規(guī)的服務(wù)器預(yù)防性維護留出時間。維護頻率取決于服務(wù)器設(shè)備的使用壽命、數(shù)據(jù)中心和需要維護的服務(wù)器數(shù)量。例如,位于設(shè)備柜中的舊服務(wù)器需要于高效顆粒空氣過濾器和良好冷卻數(shù)據(jù)中心的新服務(wù)器需要更頻繁的檢查。
組織可根據(jù)供應(yīng)商或第三方供應(yīng)商的常規(guī)程序制定常規(guī)維護計劃;如果供應(yīng)商的服務(wù)合同需要每四六個月進行一次系統(tǒng)檢查,則需要遵循此時間表。
2.為準(zhǔn)備停機做好準(zhǔn)備。
在解決服務(wù)器維護列表中的項目之前,首先需要制定一個計劃。這包括檢查系統(tǒng)日志中是否存在需要更直接關(guān)注的錯誤或事件。如果系統(tǒng)日志顯示特定的內(nèi)存模塊有錯誤,則應(yīng)訂購并更換雙列直接內(nèi)存(DIMM)并安裝。同樣,如果有可用的固件、操作系統(tǒng)或代理補丁/更新,請在計劃維護窗口之前進行測試和審查。
制定一個明確的計劃,使系統(tǒng)脫機,恢復(fù)服務(wù)。在虛擬化之前,服務(wù)器及其居民應(yīng)用程序?qū)⑿枰P(guān)閉以容納維護窗口,但這迫使服務(wù)器管理員在晚上或周末進行維護。
虛擬服務(wù)器支持工作負載遷移,而不是關(guān)閉,因此服務(wù)器管理員可以將應(yīng)用程序遷移到其他服務(wù)器,只要服務(wù)器維護在底層主機系統(tǒng)上,它們就會保持可用。在維護之前,您需要首先了解虛擬機的位置,將虛擬機遷移到所選的系統(tǒng),并在關(guān)閉服務(wù)器進行維護之前驗證每個工作負載是否正常。
此時,服務(wù)器管理員可以關(guān)閉服務(wù)器并將其從機架上移除。
3.檢查氣流路徑。
服務(wù)器停機后,需要目視檢查其外部和內(nèi)部氣流路徑。清除所有可能阻礙冷卻空氣的灰塵和碎片。
從外部空氣入口和出口開始,然后進入系統(tǒng)底盤,檢查CPU散熱器和風(fēng)扇部件、內(nèi)存,以及所有冷卻風(fēng)扇葉片和空氣管道。從機架上取下服務(wù)器后,確保服務(wù)器清潔。清潔、干燥的壓縮空氣,以清除防靜電工作區(qū)域的灰塵或碎片。
除塵不是一個新的過程,但它仍然是必要的。由于替代冷卻方案和美國供暖、制冷和空調(diào)工程師協(xié)會(ASHRAE)的建議提高了數(shù)據(jù)中心的工作溫度,灰塵是一種保溫材料,因此清除灰塵尤為重要。灰塵和其他氣流障礙會導(dǎo)致服務(wù)器消耗更多能量,甚至導(dǎo)致部件故障。
4.檢查本地硬盤。
服務(wù)器由內(nèi)部硬盤、工作負載啟動和存儲以及用戶數(shù)據(jù)引導(dǎo)。磁盤介質(zhì)問題損壞了工作負載的性能和穩(wěn)定性,導(dǎo)致硬盤過早故障。使用諸如檢查硬盤實用程序之類的工具來驗證硬盤的完整性,并嘗試在硬盤上恢復(fù)任何壞的風(fēng)扇區(qū)域。
磁性硬盤并不完美。常見的問題包括損壞風(fēng)扇區(qū)域和碎片化。存儲錯誤發(fā)生后,RAID在保持數(shù)據(jù)完整性方面取得了很大進展,但小型1U機架服務(wù)器無法提供足夠的物理空間來部署硬盤陣列。
只要NT文件系統(tǒng)和文件分配表中的硬盤文件碎片不會消失,只要文件系統(tǒng)使用第一個可用集群的硬盤空間。碎片會降低服務(wù)器硬盤的速度,導(dǎo)致故障。Optimize-volume實用程序windowsserver2016對存儲層進行碎片分類和處理。
5.驗證日志數(shù)據(jù)和事件。
服務(wù)器在事件日志中記錄了大量事件信息。服務(wù)器維護清單不完整,沒有仔細檢查系統(tǒng)、惡意軟件和其他事件日志。當(dāng)然,關(guān)鍵的系統(tǒng)問題應(yīng)該立即引起管理者和技術(shù)人員的注意,但無數(shù)的小問題可能預(yù)示著長期的問題。
在檢查日志時,管理員應(yīng)檢查報告設(shè)置并驗證正確的報警和報警接收器。例如,在檢查日志時,管理員應(yīng)檢查報告設(shè)置,并驗證正確的報警和報警接收器。例如,如果技術(shù)人員離開服務(wù)器組,則需要更新服務(wù)器報告系統(tǒng)。
還要仔細檢查聯(lián)系方式。如果在工作時間之外出現(xiàn)錯誤,向技術(shù)人員所在公司的電子郵件地址提供錯誤報告將無效。
當(dāng)日志檢查發(fā)現(xiàn)長期或重復(fù)的問題時,主動調(diào)查可以在問題升級之前解決問題。如果服務(wù)器的日志報告內(nèi)存中的可恢復(fù)錯誤,則不會引發(fā)嚴重報警。然而,如果重復(fù)顯示模塊有問題,管理員可以執(zhí)行更詳細的分析來識別即將到來的故障。
假如問題不夠嚴重,服務(wù)器就不會關(guān)閉,管理員可以將服務(wù)器恢復(fù)到生產(chǎn)狀態(tài),直到硬件出現(xiàn)更換。
6.測試補丁和更新。
服務(wù)器的軟件堆棧(BIOS、操作系統(tǒng)、管理程序、驅(qū)動程序和應(yīng)用程序)必須一起工作。不幸的是,軟件代碼很少沒有問題,所以這個問題的部分經(jīng)常被修復(fù)或更新,以修復(fù)錯誤,提高安全性,簡化互操作性,提高性能。
任何軟件都不能自動更新。管理員應(yīng)確定是否需要修復(fù)程序或升級,然后進行徹底的評估和測試。
軟件開發(fā)人員可能無法測試每個可能的硬件和軟件組合,因此有必要明智地選擇補丁和更新,以避免性能問題或工作流程中斷。例如,監(jiān)控代理程序補丁可能會導(dǎo)致重要的工作負載問題,因為新代理程序占用的帶寬超過預(yù)期。
向devops的遷移更小且更頻繁,這增加了出現(xiàn)問題的可能性。在將其部署到沙箱或測試安裝程序之前,組織仍然必須在實驗室中測試任何修復(fù)程序或更新,并且始終具有恢復(fù)原始軟件配置的能力。
7.記錄所有系統(tǒng)變更。
在維護期間,服務(wù)器可能會發(fā)生很多事情,例如硬件、軟件或系統(tǒng)配置的更改。在完成服務(wù)器維護列表后,服務(wù)器管理員仔細檢查并記錄所有新系統(tǒng)的狀態(tài)是非常重要的。例如,更改網(wǎng)絡(luò)適配器、添加或更改內(nèi)存或更新操作系統(tǒng)將改變系統(tǒng)的配置。
依賴系統(tǒng)配置管理工具的組織可能需要更新或發(fā)現(xiàn)任何更改,并將這些更改記錄到配置管理數(shù)據(jù)庫中,然后再允許系統(tǒng)重新使用。服務(wù)器管理員必須更新任何強制性或必要的狀態(tài)配置狀態(tài),以允許更改。還需要驗證系統(tǒng)的安全狀態(tài),如防火墻設(shè)置、反惡意軟件版本或掃描頻率、入侵檢測設(shè)置等。安全檢查確保系統(tǒng)軟件的更改不會無意中暴露之前配置中關(guān)閉的所有攻擊表面。在服務(wù)器重新連接后,不要忘記更新任何系統(tǒng)備份或災(zāi)難恢復(fù)(DR)內(nèi)容。除非必須特別調(diào)整任何相關(guān)設(shè)置,以反映服務(wù)器的新用例,否則驗證服務(wù)器的備份/災(zāi)難恢復(fù)頻率保持不變。
網(wǎng)站標(biāo)題:服務(wù)器的維護應(yīng)該如何實施?
標(biāo)題URL:http://jinyejixie.com/news17/325167.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站導(dǎo)航、響應(yīng)式網(wǎng)站、建站公司、外貿(mào)建站、面包屑導(dǎo)航、微信公眾號
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容