您好,登錄后才能下訂單哦!
個人體會,希望能幫助大家~。
報警 + 消息通道 + 自愈處理,優化監控報警
1、報警類,可以分為灰色報警、藍色報警(重要)、紅色報警(高危);如使用zabbix;
2、每類報警單獨一個報警群,黃色、15分鐘必須有SRE回復,紅色必須10分鐘內回復;后臺埋點使用自動化標記統計 報警與回復時間差,超期沒有人員回復跟進,直接自動電話通知相關人員,在自動電話后5分鐘未回復 處理中,那么直接后臺記錄超時;每日、周統計按產品線、或人員 統計總報警數、及超時數、進行考核。可以使用某釘的api接口二次開發實現用戶是否恢復記錄,及自動電話通知。
3、有些異常類,報警后 + 自愈自動處理。 或 巡檢類 + 自愈自動處理。
所有報警類消息,及 回復記錄 全部自動搜集入庫,如回復信息 ,進行分類 ,如:更新,cpu 、內存、故障、系統bug等 ,在一個報警時候,通過消息中心發到相關群里,然后后面加上最近 1天、3 天、7天出現次數; 及 之前此類報警的 人員回復的信息數據展示,如 之前人員回復 更新 60%, 內存30%; 推薦 最高值操作。
4、報警類的回復統計,進行分類后查看每日、周 的排名情況 ,若是更新類報警較多,那么直接在每次更新時候,通過屏蔽消息通道接口 屏蔽此類更新相關的報警(屏蔽5分鐘、10分鐘自定),這樣更新時候 就不報警到 相關報警群里了,但是 監控工具如zabbix還要繼續展示出來。減少了更新導致的報警;
5、因為自愈、自動處理,給隱瞞了部分問題。
”如果一個機器經常出現 CPU_IDLE 報警,那么我們可以將現在的監控策略進行調整,比如說,以前 5min 內出現 5 次就報警,現在可以調整為 10min 內出現 20 次再報警,或者直接刪除這個報警策略,或者將報警短信調整為報警郵件,或者各種類似的手段。但這個機器為什么出現 CPU_IDLE 報警,卻并沒有人去關注,更別提解決了“
每日、周統計 自愈處理的名稱、次數; 按人員、 部門業務線 進行維度統計,某個自愈較多的,就要優化程序或其他問題,來減少自愈次數;某個機器突然出現同類報警數增多,有可能就有問題的預兆,報警類較多,直接有報警儀表盤展示各類報警曲線,通過曲線也發現問題。~~ 后期報警少了后,再返回來跟進為啥能引起自愈的問題,如磁盤報警一直報警就自動處理,那么某個時間自愈較多了是否代碼debug日志了或者 有異常了導致日志多,導致頻繁清理?
參考:
https://www.infoq.cn/article/1AofGj2SvqrjW3BKwXlN?utm_source=infoq&utm_medium=article&utm_campaign=newinfoq&utm_content=language2019&utm_term=701
擺脫無效報警?十年運維監控報警優化經驗總結
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。