首頁 > 技術(shù) > 正文

天天時訊:火山引擎DataLeap推出全鏈路智能監(jiān)控報警平臺

2023-04-07 16:00:00來源:中關(guān)村在線  

隨著大數(shù)據(jù)開發(fā)場景下需要運(yùn)維管理的任務(wù)越來越多,在日常運(yùn)維中開發(fā)者經(jīng)常會面臨以下幾個問題:

1.任務(wù)多,依賴關(guān)系復(fù)雜:很難查找到重要任務(wù)的所有上游任務(wù)并進(jìn)行監(jiān)控。如果監(jiān)控所有任務(wù),又會產(chǎn)生很多無用報警,導(dǎo)致有用報警被忽視;

2.配置運(yùn)維成本高:每個任務(wù)的運(yùn)行情況不一樣,承諾完成時間不一樣,如果單獨對每個任務(wù)設(shè)置監(jiān)控,分析及人工對齊任務(wù)服務(wù)級別協(xié)議(SLA)成本非常高;


(資料圖)

3.報警形式多樣性:對于小時級的任務(wù),不同時段的報警及時性要求不同,普通監(jiān)控?zé)o法滿足不同時段多樣的報警需求。

為了幫助企業(yè)開發(fā)者更好地解決這一問題,及時平穩(wěn)完成日常運(yùn)維、高效保障數(shù)據(jù)質(zhì)量,字節(jié)跳動數(shù)據(jù)平臺開發(fā)套件數(shù)據(jù)開發(fā)團(tuán)隊自研了基于依賴關(guān)系的全鏈路智能監(jiān)控報警——基線監(jiān)控,它能根據(jù)任務(wù)運(yùn)行情況,智能決策是否報警、何時報警、如何報警以及向誰報警,貫穿整條任務(wù)產(chǎn)出鏈路,避免出現(xiàn)環(huán)節(jié)缺失,保障鏈路完整性。目前基線監(jiān)控已在字節(jié)跳動內(nèi)部得到廣泛使用,覆蓋抖音、電商、廣告等100+個項目,服務(wù)級別協(xié)議(SLA)任務(wù)的基線監(jiān)控覆蓋率超過80%。

當(dāng)前,該能力已通過火山引擎DataLeap向企業(yè)開放。企業(yè)可以通過火山引擎DataLeap的基線監(jiān)控功能,有效降低監(jiān)控配置成本、避免無效報警及報警泛濫。

圖:火山引擎DataLeap監(jiān)控范圍

火山引擎DataLeap默認(rèn)監(jiān)控的范圍包括:基線保障任務(wù)及保障任務(wù)上游的所有任務(wù)。如上圖所示,保障任務(wù)D,E及它們所有的上游節(jié)點都會納入基線監(jiān)控范圍,而任務(wù)C,F(xiàn)不受基線監(jiān)控。值得一提的是,火山引擎DataLeap的基線監(jiān)控允許用戶配置基線監(jiān)控只覆蓋“指定項目”下的任務(wù),此時基線監(jiān)控的范圍就只包含了保障任務(wù)及這些項目下的上游任務(wù)。

圖:火山引擎DataLeap基線監(jiān)控整體架構(gòu)

火山引擎DataLeap基線監(jiān)控由基線管理模塊、基線實例生成、基線埋點檢測等構(gòu)成,各模塊功能詳情如下:

基線管理模塊:負(fù)責(zé)基線創(chuàng)建、更新、刪除等操作,管理基線元信息,包括保障任務(wù),承諾時間,余量及報警配置等;

基線實例生成:火山引擎DataLeap每天定時觸發(fā)生成基線實例,生成實例的同時根據(jù)保障任務(wù),由下而上逐層遍歷 (BFS)所有上游任務(wù)并生成基線監(jiān)控埋點。生成基線監(jiān)控埋點的過程中,火山引擎DataLeap會計算每個任務(wù)節(jié)點的預(yù)測運(yùn)行時長,承諾時間,預(yù)警時間,預(yù)警最晚開始時間,承諾最晚開始時間。此外,火山引擎DataLeap會給基線監(jiān)控任務(wù)添加基線出錯/變慢報警規(guī)則,當(dāng)任務(wù)執(zhí)行觸發(fā)規(guī)則后,通過基礎(chǔ)報警服務(wù)發(fā)送基線報警事件;

監(jiān)控埋點校驗:系統(tǒng)維護(hù)一個延遲隊列,火山引擎DataLeap會根據(jù)校驗時間點(預(yù)警最晚開始時間,承諾最晚開始時間以及破線加劇時間校驗點),同時火山引擎DataLeap會定時觸發(fā)監(jiān)控埋點校驗任務(wù)實例運(yùn)行狀態(tài),如果在時間點實例未運(yùn)行成功,產(chǎn)生基線預(yù)警/破線報警事件,發(fā)送報警。

未來,火山引擎DataLeap的研發(fā)人員將繼續(xù)針對基線監(jiān)控進(jìn)行優(yōu)化,如基線關(guān)鍵路徑分析、基線實例生成效率優(yōu)化等,不斷提高基線監(jiān)控算法性能,完善基線鏈路分析能力,提升用戶體驗,向企業(yè)級市場提供更強(qiáng)大的全鏈路監(jiān)控運(yùn)營服務(wù)。(作者:崔崗)

標(biāo)簽:

相關(guān)閱讀

精彩推薦

相關(guān)詞

推薦閱讀