您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關如何利用進行JARVIS美團即時物流的分布式系統架構設計,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
背景
美團外賣已經發展了五年,即時物流探索也經歷了 3 年多的時間,業務從零孵化到初具規模,在整個過程中積累了一些分布式高并發系統的建設經驗。最主要的收獲包括兩點:
即時物流業務對故障和高延遲的容忍度極低,在業務復雜度提升的同時也要求系統具備分布式、可擴展、可容災的能力。即時物流系統階段性的逐步實施分布式系統的架構升級,最終解決了系統宕機的風險。圍繞成本、效率、體驗核心三要素,即時物流體系大量結合 AI 技術,從定價、ETA、調度、運力規劃、運力干預、補貼、核算、語音交互、LBS 挖掘、業務運維、指標監控等方面,業務突破結合架構升級,達到促規模、保體驗、降成本的效果。
主要介紹在美團即時物流分布式系統架構逐層演變的進展中,遇到的技術障礙和挑戰:
訂單、騎手規模大,供需匹配過程的超大規模計算問題。遇到節假日或者惡劣天氣,訂單聚集效應,流量高峰是平常的十幾倍。物流履約是線上連接線下的關鍵環節,故障容忍度極低,不能宕機,不能丟單,可用性要求極高。數據實時性、準確性要求高,對延遲、異常非常敏感。
美團即時物流配送平臺主要圍繞三件事展開:一是面向用戶提供履約的 SLA,包括計算送達時間 ETA、配送費定價等;二是在多目標(成本、效率、體驗)優化的背景下,匹配最合適的騎手;三是提供騎手完整履約過程中的輔助決策,包括智能語音、路徑推薦、到店提醒等。
在一系列服務背后,是美團強大的技術體系的支持,并由此沉淀出的配送業務架構體系,基于架構構建的平臺、算法、系統和服務。龐大的物流系統背后離不開分布式系統架構的支撐,而且這個架構更要保證高可用和高并發。
分布式架構,是相對于集中式架構而言的一種架構體系。分布式架構適用 CAP 理論(Consistency 一致性,Availability 可用性,Partition Tolerance 分區容忍性)。在分布式架構中,一個服務部署在多個對等節點中,節點之間通過網絡進行通信,多個節點共同組成服務集群來提供高可用、一致性的服務。
早期,美團按照業務領域劃分成多個垂直服務架構;隨著業務的發展,從可用性的角度考慮做了分層服務架構。后來,業務發展越發復雜,從運維、質量等多個角度考量后,逐步演進到微服務架構。這里主要遵循了兩個原則:不宜過早的進入到微服務架構的設計中,好的架構是演進出來的不是提前設計出來的。
上圖是比較典型的美團技術體系下的分布式系統結構:依托了美團公共組件和服務,完成了分區擴容、容災和監控的能力。前端流量會通過 HLB 來分發和負載均衡;在分區內,服務與服務會通過 OCTO 進行通信,提供服務注冊、自動發現、負載均衡、容錯、灰度發布等等服務。當然也可以通過消息隊列進行通信,例如 Kafka、RabbitMQ。在存儲層使用 Zebra 來訪問分布式數據庫進行讀寫操作。利用 CAT(美團開源的分布式監控系統)進行分布式業務及系統日志的采集、上報和監控。分布式緩存使用 Squirrel+Cellar 的組合。分布式任務調度則是通過 Crane。
在實踐過程還要解決幾個問題,比較典型的是集群的擴展性,有狀態的集群可擴展性相對較差,無法快速擴容機器,無法緩解流量壓力。同時,也會出現節點熱點的問題,包括資源不均勻、CPU 使用不均勻等等。
首先,配送后臺技術團隊通過架構升級,將有狀態節點變成無狀態節點,通過并行計算的能力,讓小的業務節點去分擔計算壓力,以此實現快速擴容。
第二是要解決一致性的問題,對于既要寫 DB 也要寫緩存的場景,業務寫緩存無法保障數據一致性,美團內部主要通過 Databus 來解決,Databus 是一個高可用、低延時、高并發、保證數據一致性的數據庫變更實時傳輸系統。通過 Databus 上游可以監控業務 Binlog 變更,通過管道將變更信息傳遞給 ES 和其他 DB,或者是其他 KV 系統,利用 Databus 的高可用特性來保證數據最終是可以同步到其他系統中。
第三是我們一直在花精力解決的事情,就是保障集群高可用,主要從三個方面來入手,事前較多的是做全鏈路壓測評,估峰值容量;周期性的集群健康性檢查;隨機故障演練(服務、機器、組件)。事中做異常報警(性能、業務指標、可用性);快速的故障定位(單機故障、集群故障、IDC 故障、組件異常、服務異常);故障前后的系統變更收集。事后重點做系統回滾;擴容、限流、熔斷、降級;核武器兜底。
單 IDC 的快速部署 & 容災
單 IDC 故障之后,入口服務做到故障識別,自動流量切換;單 IDC 的快速擴容,數據提前同步,服務提前部署,Ready 之后打開入口流量;要求所有做數據同步、流量分發的服務,都具備自動故障檢測、故障服務自動摘除;按照 IDC 為單位擴縮容的能力。
多中心嘗試
美團 IDC 以分區為單位,存在資源滿排,分區無法擴容。美團的方案是多個 IDC 組成虛擬中心,以中心為分區的單位;服務無差別的部署在中心內;中心容量不夠,直接增加新的 IDC 來擴容容量。
單元化嘗試
相比多中心來說,單元化是進行分區容災和擴容的更優方案。關于流量路由,美團主要是根據業務特點,采用區域或城市進行路由。數據同步上,異地會出現延遲狀況。SET 容災上要保證同本地或異地 SET 出現問題時,可以快速把 SET 切換到其他 SET 上來承擔流量。
智能物流的核心技術能力和平臺沉淀
機器學習平臺,是一站式線下到線上的模型訓練和算法應用平臺。之所以構建這個平臺,目的是要解決算法應用場景多,重復造輪子的矛盾問題,以及線上、線下數據質量不一致。如果流程不明確不連貫,會出現迭代效率低,特征、模型的應用上線部署出現數據質量等障礙問題。
JARVIS 是一個以穩定性保障為目標的智能化業務運維 AIOps 平臺。主要用于處理系統故障時報警源很多,會有大量的重復報警,有效信息很容易被淹沒等各種問題。此外,過往小規模分布式集群的運維故障主要靠人和經驗來分析和定位,效率低下,處理速度慢,每次故障處理得到的預期不穩定,在有效性和及時性方面無法保證。所以需要 AIOps 平臺來解決這些問題。
上述就是小編為大家分享的如何利用進行JARVIS美團即時物流的分布式系統架構設計了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。