對(duì)企業(yè)來(lái)說(shuō),了解
機(jī)房環(huán)境監(jiān)控系統(tǒng)就是給自己的機(jī)房增加了一層安全保障。如果機(jī)房出現(xiàn)的問(wèn)題很少,機(jī)房監(jiān)控是必不可少的。
監(jiān)控目標(biāo)
首先讓我們了解什么是機(jī)房環(huán)境監(jiān)控系統(tǒng),它的重要性和監(jiān)控系統(tǒng)的目標(biāo)。
1. 系統(tǒng)的連續(xù)實(shí)時(shí)監(jiān)控:實(shí)際上就是對(duì)系統(tǒng)的連續(xù)實(shí)時(shí)監(jiān)控(這就是監(jiān)控)。
2. 系統(tǒng)當(dāng)前狀態(tài)的實(shí)時(shí)反饋:當(dāng)我們監(jiān)控一個(gè)硬件或系統(tǒng)時(shí),我們需要能夠?qū)崟r(shí)看到系統(tǒng)的當(dāng)前狀態(tài),無(wú)論是正常、異常還是故障。
監(jiān)控觀(guān)察方法
1. 了解監(jiān)控對(duì)象:了解監(jiān)控對(duì)象嗎?例如,CPU是如何工作的?
2. 性能基準(zhǔn)索引:用戶(hù)模式、內(nèi)核模式、CPU利用率、負(fù)載、上下文切換等。
3. 告警閾值的定義:什么是故障,應(yīng)該稱(chēng)為告警?例如,有多少cpu負(fù)載高,有多少用戶(hù)模式和內(nèi)核模式分別運(yùn)行?
4. 故障處理流程:收到故障告警后如何處理?有沒(méi)有更有效的流程?
機(jī)房環(huán)境監(jiān)控系統(tǒng)監(jiān)控核心
我們了解監(jiān)控方法、監(jiān)控對(duì)象、性能指標(biāo)、告警閾值定義和故障處理方法。當(dāng)然,我們需要知道監(jiān)控的核心是什么。
1. 發(fā)現(xiàn)問(wèn)題:當(dāng)機(jī)房環(huán)境監(jiān)控系統(tǒng)發(fā)出故障報(bào)警時(shí),我們會(huì)收到故障報(bào)警信息。
2. 定位問(wèn)題:例如服務(wù)器無(wú)法連接:我們需要考慮是否是網(wǎng)絡(luò)問(wèn)題,是否長(zhǎng)時(shí)間連接的負(fù)載過(guò)高,或者一次性開(kāi)發(fā)是否觸發(fā)了防火墻禁止的相關(guān)策略。所以我們需要分析失敗的具體原因。
3. 問(wèn)題解決:當(dāng)然,在我們知道故障的原因后,我們需要根據(jù)故障解決的優(yōu)先級(jí)來(lái)解決故障。