提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

發布時間：2020-07-30 02:50:38 來源：網絡閱讀：309 作者：RancherLabs 欄目：云計算

2019年6月20日，由Rancher Labs（以下簡稱Rancher）主辦的第三屆企業容器創新大會（Enterprise Container Innovation Conference, 以下簡稱ECIC）在北京喜來登大酒店盛大舉行。本屆ECIC規模宏大，全天共設置了17場主題演講，吸引了近千名容器技術愛好者參加，超過10000名觀眾在線上直播平臺觀看了本次盛會。

來自Rancher、阿里云、百度云、平安科技、中國聯通、飛貸金融科技、中國人壽、SmartX、華泰保險、廈門航空、JFrog、新東方、Cisco等十多家企業的技術負責人出席了本屆ECIC，現場帶來關于企業容器項目實踐經驗的精彩分享，為參會的容器技術愛好者帶來企業容器化的經驗分享。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐 cdn.xitu.io/2019/7/4/16bbafa6869063e9?w=1920&h=1280&f=jpeg&s=268490">

大會現場，中國聯通數據中心總經理王志軍為現場容器愛好者帶來了主題為《中國聯通容器化大數據云平臺探索與實踐》的內容分享。

中國聯通是國內三大運營商之一，同時也是國內首批將大數據平臺部署在容器云上的企業。關于中國聯通在容器化大數據云平臺上的發展和探索，王志軍分享道：“通過研究、探索和實踐，我們發現Kubernetes+Docker的技術路線更契合聯通的實際需求，它幾乎支持了所有的容器業務類型，也正是基于聯通的技術選型，我們引入了Rancher的產品部署和Kubernetes集群管理功能，為聯通的容器化大數據云平臺提供更強而有力的容器技術及容器服務支撐。”

以下是中國聯通集團數據中心總經理王志軍的演講實錄：

大家好，非常感謝Rancher邀請我們在企業容器創新大會上進行演講，我今天演講的題目是《中國聯通容器化大數據云平臺探索和實踐》，內容是中國聯通是怎樣將大數據和容器化云平臺相連接的。

建設背景

我們一起來簡單回顧一下中國聯通大數據和云計算的發展歷程。大數據和云計算分屬于兩個不同的領域，大數據主要關注怎么將數據集中起來，挖掘數據的價值。云計算主要關注怎么更高效地使用資源，提升資源的利用效率。當大數據發展到一定階段的時候，它就會和云計算不期而遇。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

在大數據的方面，存在有幾個標志性的事件和歷程，一是2006年Hadoop的出現，二是2009年CDH發行版的出現，到2012年，大數據出現了新的資源調度管理方式，流式計算技術比如Spark和Flink等。

云計算的標志性事件是從2006年亞馬遜提出EC2開始的，EC2的出現標志著云計算時代的開啟，2010年出現了OpenStack，這是我們在部署私有云中非常廣泛使用的一個技術，2013年是Docker的元年，讓容器技術風靡了云計算領域。2014年Kubernetes的出現則將Container as a Service變成了被業界廣泛接受的全新理念。大量的我們原先在虛擬機上部署單體應用或者分布式應用的架構逐漸變成了基于容器的微服務加工方式。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

我們所提出的ABC融合指的是AI+Bigdate+Cloud的融合。

在Bigdate 2.0時代，Hadoop商業版出現為大家利用Hadoop進行大數據的處理提供了更好的方式。另一方面，SQL on Hadoop逐漸成熟了起來。在我們看來，SQL on Hadoop是一種更為接近人類自然來進行數據處理的語言，它和我們的關系數據庫并不是一個非常緊密的耦合關系，我們大量的實時處理是基于SQL on Hadoop去處理的。第三點是最開始我們做大數據的時候，大量采用的是批處理的處理方式，現在我們更多的是采用流失處理和批處理相結合以及交互是分析相結合的方式來進行的。

在Bigdate 3.0時代，大數據云和AI已經融為一體了，客戶希望能在一個統一的平臺上提供AI、Bigdate和Cloud。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

中國聯通是整個運營商行業當中實現數據集中的企業，我們擁有企業級全域數據的存儲中心、計算中心、能力中心和孵化中心。在運營商行業，他們的系統架構模式基本上都是分省來進行建設的，但是中國聯通在建設大數據平臺的第一天我們就把數據集中匯集到總部的一個節點，我們堅信數據只有匯聚才能發生化學反應，才能產生最大化的價值。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

中國聯通擁有百PB級的數據吞吐能力和統一的數據服務能力。我們數據中心的數據量超過100個PB。當然，數據量并不是越大越好，數據本身是有成本的，我們希望數據的成本和數據的價值能達到一個平衡點。另外，我們有超過6500臺對內服務的服務器數據節點，以及超過2000臺對外服務的服務器數據節點，加起來有9000臺左右的節點數量。除此之外，從中國聯通的存儲能力上看，我們目前的存儲能力可能接近200個PB。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

全域數據匯聚和管理中心沉淀了海量的計算能力、存儲能力和數據能力，導致了中國聯通面臨著資源智能調度、最大化利用和能力共享的難題。

中國聯通有整體的數據中心節點，而在總部底下是中國聯通的省分公司和子公司，他們希望利用總部的大數據平臺去進行各自的數據處理和數據分析，因此產生了云計算的需求。他們希望總部的節點能夠為它提供一個數據處理的平臺，省分公司和子公司在平臺上進行自身的數據加工和處理。

這是我們自身優化的源動力，就是中國聯通自身的節點如何避免計算、存儲資源不均衡的調度，創新地為租戶提供同樣的能力。這時候，中國聯通的大數據和云計算就自然而然地走到了一起。

探索歷程

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

我們從2016年開始在中國聯通大數據云平臺建設上投入很大的力量，也經歷了幾個不同的發展階段。

在最初的建設階段，我們的資源是物理部署、人工劃配、系統運維，我們經歷了大數據的整體發展歷程，在最開始的時候，你要做大數據，必須要通過物理機器來實現，你要部署一個Hadoop機器，如果你需要kafka，你還需要用物理的機器部署一個kafka，這是大數據平臺建設必然的發展階段。

下一個階段屬于優化提升階段，我們希望通過一個集中工作組統一管理資源，在其他人有資源需求的時候，我們去做半自動化的部署、半人工的劃配，還有就是系統運維的簡單監控。

第三個階段就是通過大數據云平臺提供一鍵部署，你需要一個大數據平臺，通過一鍵部署，我為你提供一個大數據平臺，你可以在上面去做自身數據的加工和處理。而你的數據可以來源于總部的數據平臺，也可以來源于自身的數據。這樣就實現了按需自動分配、彈縮，統一監控和統一運維。我們目前已經在第三個階段了。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

在中國聯通進行技術路線選型的時候，我們面臨著Kubernetes和Mesos二者之間的選擇。

我們為什么選擇Kubernetes？因為Kubernetes幾乎支持所有的容器業務類型，包括長期伺服、批處理、node-deamon以及狀態應用等。我們最開始在做容器應用或者是微服務應用的時候，更多的是無狀態的應用。但我們提供大數據服務的時候，很多應用是有狀態的。

對Kubernetes和Mesos我們進行了非常深入的分析，尤其是生態活躍度，Kubernetes的生態活躍度和社區關注度在急劇上升。我們在進行技術選型的時候，包括它的使用場景、外部應用、中間節點和數據庫、有服務狀態等都進行了分析。另外，技術的成熟度是否有業界廠商的廣泛加持，比如谷歌、亞馬遜、Rancher、IBM、阿里、百度等。Kubernetes有非常好的生態，所以我們選擇了Kubernetes來解決聯通的實際需求。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

談及Kubernetes時，無可避免地一定會提及中國聯通和Rancher的合作。

中國聯通在搭建Kubernetes和Docker容器化平臺的過程當中，我們引入了Rancher的產品去部署和管理多個Kubernetes集群。我們使用Rancher Server，通過圖形化和RKE兩種方式對多租戶的Kubernetes集群進行部署和管理。

另一方面，從我們的角度來看，Rancher有豐富的容器化實施案例經驗，這塊正好彌補了中國聯通的一些不足之處，成為我們在處理和解決問題中的一個堅強后盾。我們更加關注于怎樣把服務變成云，然后開放給省分公司和子公司使用，我們怎樣才能把數據處理的更好。而針對底層的服務，我們希望借助業界的合作伙伴和我們共同解決。

除此之外，開源的產品經常會有重大安全漏洞，在這一方面Rancher能為中國聯通提供一個很好的技術支持，為中國聯通的云平臺安全保駕護航。

平臺實踐

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

中國聯通提供幾個方面的服務，一是大數據即服務，比如我們的省分公司或者子公司需要一個大數據平臺，我們就為它一鍵提供一個大數據平臺，包括Hadoop、Spark、Storm、impala等，一旦我能為省分公司及子公司提供大數據平臺，他們就無需自己重新構建大數據平臺了。

二是中間件和數據庫即服務。對于省分公司和子公司而言，光有大數據平臺來進行數據處理是遠遠不夠的，這當中必然要用到很多中間件，所以我們要為他們提供中間件和數據庫即服務，這里包括kafka數據庫即服務、Redis分布式緩存服務、MySQL關系數據庫的服務。

有了以上二者之后，我們還可以提供數據集成工具即服務，比如云化ETL，我可以去做數據抽取轉化，來為省分公司和子公司提供調度。

我們前面提到了ABC，進一步擴展，我們可以提供深度學習即服務，比如TensorFlow、Caffe等。

最后一個就是容器云服務，我們可以提供應用托管的環境。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

有了以上幾個服務之后，對于租戶來講，涵蓋了數據的加工、處理，流轉以及應用的提供，基本上就具備了PaaS平臺的框架了。我們的省分公司或者是子公司就不必再去建設做自己的大數據平臺，如果他們要做大數據應用，就可以放到總部平臺去做，相當于部署了一個任務在總部平臺上，對于他們而言，他們有自己的數據，也有自己的空間來做一個處理，我們通過大數據平臺的方式滿足了他們的這種需求。

以上還列舉了一些PaaS能力如Hadoop、Spark、Hive、HBase、ZooKeeper、Storm、Implpa等，另外包括分布式數據倉庫、數據集市、實時計算、數據挖掘的引擎、信息檢索引擎等等。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

還有，中間件及數據庫服務組件如kafka、MySQL，數據集成工具包括元數據管理、數據治理的服務，云化ETL服務、數據集合管理的服務等等。

我們目前還有很多其他的服務，比如數據安全的服務、脫敏的服務、溯源的服務，這些我們都通過云的方式提供給省分公司和子公司。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

無論是中國聯通的大數據基礎服務、深度學習框架、中間件及數據庫服務，還是微服務的開發部署、數據集成工具等，這些內容不可能由單一的團隊完成，我們有非常多的團隊，有些團隊專注于大數據基礎服務，有些團隊專注于將深度學習的框架部署在Kubernetes上，有些團隊專注于將中間件即服務的放到Kubernetes容器云平臺上進行部署管理，這些都是由不同的團隊完成的，所以我們需要有一個統一的管理平臺。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

在這上面我們使用的是Kubernetes Service Catalog和Open Service Broker。統一的集成框架像Kubernetes Service Catalog實現異構組件的統一納管，通過業界標準的Open Service Broker實現第三方組件的接入和擴展。當我們底下有新服務的時候，我們通過整體開放的架構接入新服務，開放給我們的客戶使用。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

我們有四大類支持場景。第一種場景就是你需要一個大數據平臺，我為你提供一個大數據平臺，這是最基礎的一個場景，也是最難實現的一個場景。第二種場景就是為你提供大數據的服務組件，你進行數據加工和處理，比如提供一個分布式的數據倉儲，你將數據拿進來處理之后帶走或者是拿來做其他的應用。第三種場景是應用微服務化的容器化部署。最后一種場景是假設我為你提供一個孵化平臺，提供樣本數據，提供數據處理組件，你自己去進行一些模型的訓練。

從租戶整體應用場景上看，最大的是進行模型訓練的，比例為34%。省分大數據平臺構建占比17%，容器化應用和服務開發部署占比為27%，大數據加工處理占比為22%。這是我們目前的應用情況。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

我們之前還有采用一種邏輯多租的方式，因為我們有大數據平臺，有資源的調度和管理，我們可以采用邏輯多租的方式來為你提供服務，但這具有一定的局限性。而基于容器云的大數據平臺更多采用的是物理多租的方式，能對資源進行有效隔離，能對數據進行有效隔離，服務進行有效隔離，業務進行有效隔離。我申請的這個東西是我的，和邏輯多組不一樣，邏輯多租總感覺我和別人共享一個空間，而物理多租這個空間就是你的，你在里面做什么事情我們不管，我們只希望你講這個事情做得更加容易。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

在這當中我們肯定會面臨一些技術挑戰。包括多種PaaS能力的集成。其二就是多個Kubernetes集群的互通，因為我們剛才分享了中國聯通下面是有N個團隊的，大數據平臺服務可能分布在一個Kubernetes集群上，也有可能不止分布在一個Kubernetes集群上，是由多個Kubernetes集群組成的。其三是大數據服務的容器化，比如Hadoop怎么放到容器云平臺上，Hadoop的部署方式是需要高度來進行規劃的，需要做到計算和數據的親和性，那這一問題我們應該怎么解決。最后是計算資源的本地化。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

關于以上幾種技術挑戰，我們有一些解決方法。多樣化PaaS能力的集成我們會用Open Service Broker來解決這一問題。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

Kubernetes集群間網絡互通我們會通過多機型的互通來解決，我們有多個集群，在大數據云平臺上，我們的應用可以訪問你的Datanote，你的應用通過直接訪問Datanote寫入和讀取數據，API調用的問題通過定制Flannel網絡插件來解決，兩個集群共用一個Flannel網絡，實現跨集群pod IP直接連接。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

對于Hadoop容器化如何完成部署的問題，這里面包括如果將Hadoop的服務進行拆分，如何完成角色規劃？將Hadoop按照組件進行最小單位拆分，通過親和的調度算法實現一個集群的合理部署。拆分完之后怎么解決服務之間依賴和發現的問題？集群內部我們使用Headless Service的方式來解決，我們直接調用底層pod提供的服務。服務之間會通過DNS和配置注入的方式來進行發現。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

面對Hadoop容器化計算本地化的挑戰，我們采用k8s親和的調度策略，確保統一集群的計算服務調度到相同的列表，第二步，我們更改了Yarn和Spark的調度邏輯，判斷到對應的計算是否在同一個主機至上。第三步，多個pad我們共享Domain Socket，而且每個租戶的Domain Socket相互獨立。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

中國聯通大數據云平臺提供的PaaS能力有6大類30多種，我們的集群數量有437個。在大數據云平臺，我們開放給租戶來使用這一平臺，每月執行MR/Spark任務16萬多個，實行的數據調度任務一萬五千多個。

我們目前還在逐漸拓展使用的范疇，先前我們很多小的省份公司已經將大數據平臺放到中國聯通大數據云平臺上進行部署。下一步中國聯通會進一步擴大規模，未來絕大部分的省分公司、子公司都將大數據平臺放到這一平臺上進行部署。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

后續我們希望中國聯通大數據云平臺不斷地進行演進，將Kubernetes本身當做一個服務提供給我們的租戶，另一方面我們希望可以提供FaaS，采用Serviceless的方式為客戶提供更加方便的服務，它只需提供一個函數就可以了，后臺服務可以根據函數調動的情況進行彈縮和縮放。

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

另一個探索方向是支持物聯網的云平臺。現在5G炒得很熱，無論是運營商行業還是整體的社會，大家都在關注5G。5G主要解決三大問題，一是大帶寬，二是高密度連接，三是低延遲。高密度連接和低延遲這兩個問題都是屬于物聯網應用的問題。而我們構建大數據云平臺為物聯網提供新服務，萬物互聯將產生更多的數據，數據如何進行實時處理？怎樣進行后續的分析和處理？我們希望通過公共云平臺的方式解決這一問題。

總結與展望

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

以上是中國聯通基于容器云的大數據平臺建設情況，目前看來我們取得了非常不錯的一個成果。在未來，我們將集成更多的能力，賦能前臺，實現智能管理，提升整體利用效率。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

建設背景

探索歷程

平臺實踐

總結與展望

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

提升60%基礎資源利用率！中國聯通的容器化大數據平臺實踐

建設背景

探索歷程

平臺實踐

總結與展望

猜你喜歡

最新資訊

相關推薦

相關標簽