了解監控政策:監控的政策你是否了解呢?比如CPU究竟是怎樣作業的?功用基準政策:我們要監控這個東西的什么特點?比如CPU的使用率、負載、用戶態、內核態、上下文切換。報警閾值定義:怎樣樣才算是缺點,要報警呢?比如CPU的負載究竟多少算高,用戶態、內核態分別跑多少算高?缺點處理流程:收到了缺點報警,那么我們怎樣處理呢?有什么更高效的處理流程嗎?
發現問題:當系統發生缺點報警,我們會收到缺點報警的信息定位問題:缺點郵件一般都會寫某某主機缺點、具體缺點的內容,我們需求對報警內容進行分析,比如一臺服務器連不上:我們就需求考慮是網絡問題、仍是負載太高導致長時間無法聯接,又或許某開發觸發了防火墻制止的相關戰略等等,我們就需求去分析缺點具體原因。
處理問題:當然我們了解到缺點的原因后,就需求經過缺點處理的優先級去向理該缺點??偨Y問題:當我們處理完嚴峻缺點后,需求對缺點原因以及防范進行總結歸納,避免今后重復呈現。
對系統不間斷實時監控:實際上是對系統不間斷的實時監控(這就是監控)實時反應系統其時情況:我們監控某個硬件、或許某個系統,都是需求能實時看到其時系統的情況,是正常、反常、或許缺點。
保證服務可靠性安全性:監控的意圖就是要保證系統、服務、業務正常工作保證業務繼續安穩工作:假設我們的監控做得很完善,即使呈現缺點,能第一時間接收到缺點報警,在第一時間處理處理,然后保證業務繼續性的安穩工作。