您好,登錄后才能下訂單哦!
Kafka 宕機以及Kafka 高可用原理是怎樣理解的,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
Kafka宕機引發的高可用問題
問題要從一次Kafka的宕機開始說起。
筆者所在的是一家金融科技公司,但公司內部并沒有采用在金融支付領域更為流行的RabbitMQ,而是采用了設計之初就為日志處理而生的Kafka,所以我一直很好奇Kafka的高可用實現和保障。從Kafka部署后,系統內部使用的Kafka一直運行穩定,沒有出現不可用的情況。
但最近系統測試人員常反饋偶有Kafka消費者收不到消息的情況,登陸管理界面發現三個節點中有一個節點宕機掛掉了。但是按照高可用的理念,三個節點還有兩個節點可用怎么就引起了整個集群的消費者都接收不到消息呢?
要解決這個問題,就要從Kafka的高可用實現開始講起。
Kafka的多副本冗余設計
不管是傳統的基于關系型數據庫設計的系統,還是分布式的如zookeeper、redis、Kafka、HDFS等等,實現高可用的辦法通常是采用冗余設計,通過冗余來解決節點宕機不可用問題。
首先簡單了解Kafka的幾個概念:
物理模型
邏輯模型
Broker(節點):Kafka服務節點,簡單來說一個Broker就是一臺Kafka服務器,一個物理節點。
Topic(主題):在Kafka中消息以主題為單位進行歸類,每個主題都有一個Topic Name,生產者根據Topic Name將消息發送到特定的Topic,消費者則同樣根據Topic Name從對應的Topic進行消費。
Partition(分區):Topic(主題)是消息歸類的一個單位,但每一個主題還能再細分為一個或多個Partition(分區),一個分區只能屬于一個主題。主題和分區都是邏輯上的概念,舉個例子,消息1和消息2都發送到主題1,它們可能進入同一個分區也可能進入不同的分區(所以同一個主題下的不同分區包含的消息是不同的),之后便會發送到分區對應的Broker節點上。
Offset(偏移量):分區可以看作是一個只進不出的隊列(Kafka只保證一個分區內的消息是有序的),消息會往這個隊列的尾部追加,每個消息進入分區后都會有一個偏移量,標識該消息在該分區中的位置,消費者要消費該消息就是通過偏移量來識別。
其實,根據上述的幾個概念,是不是也多少猜到了Kafka的多副本冗余設計實現了?別急,咱繼續往下看。
在Kafka 0.8版本以前,是沒有多副本冗余機制的,一旦一個節點掛掉,那么這個節點上的所有Partition的數據就無法再被消費。這就等于發送到Topic的有一部分數據丟失了。
在0.8版本后引入副本記者則很好地解決宕機后數據丟失的問題。副本是以Topic中每個Partition的數據為單位,每個Partition的數據會同步到其他物理節點上,形成多個副本。
每個Partition的副本都包括一個Leader副本和多個Follower副本,Leader由所有的副本共同選舉得出,其他副本則都為Follower副本。在生產者寫或者消費者讀的時候,都只會與Leader打交道,在寫入數據后Follower就會來拉取數據進行數據同步。
就這么簡單?是的,基于上面這張多副本架構圖就實現了Kafka的高可用。當某個Broker掛掉了,甭擔心,這個Broker上的Partition在其他Broker節點上還有副本。你說如果掛掉的是Leader怎么辦?那就在Follower中在選舉出一個Leader即可,生產者和消費者又可以和新的Leader愉快地玩耍了,這就是高可用。
你可能還有疑問,那要多少個副本才算夠用?Follower和Leader之間沒有完全同步怎么辦?一個節點宕機后Leader的選舉規則是什么?
直接拋結論:
多少個副本才算夠用? 副本肯定越多越能保證Kafka的高可用,但越多的副本意味著網絡、磁盤資源的消耗更多,性能會有所下降,通常來說副本數為3即可保證高可用,極端情況下將replication-factor參數調大即可。
Follower和Lead之間沒有完全同步怎么辦? Follower和Leader之間并不是完全同步,但也不是完全異步,而是采用一種ISR機制(In-Sync Replica)。每個Leader會動態維護一個ISR列表,該列表里存儲的是和Leader基本同步的Follower。如果有Follower由于網絡、GC等原因而沒有向Leader發起拉取數據請求,此時Follower相對于Leader是不同步的,則會被踢出ISR列表。所以說,ISR列表中的Follower都是跟得上Leader的副本。
一個節點宕機后Leader的選舉規則是什么? 分布式相關的選舉規則有很多,像Zookeeper的Zab、Raft、Viewstamped Replication、微軟的PacificA等。而Kafka的Leader選舉思路很簡單,基于我們上述提到的ISR列表,當宕機后會從所有副本中順序查找,如果查找到的副本在ISR列表中,則當選為Leader。另外還要保證前任Leader已經是退位狀態了,否則會出現腦裂情況(有兩個Leader)。怎么保證?Kafka通過設置了一個controller來保證只有一個Leader。
Ack參數決定了可靠程度
另外,這里補充一個面試考Kafka高可用必備知識點:request.required.asks參數。
Asks這個參數是生產者客戶端的重要配置,發送消息的時候就可設置這個參數。該參數有三個值可配置:0、1、All。
第一種是設為0,意思是生產者把消息發送出去之后,之后這消息是死是活咱就不管了,有那么點發后即忘的意思,說出去的話就不負責了。不負責自然這消息就有可能丟失,那就把可用性也丟失了。
第二種是設為1,意思是生產者把消息發送出去之后,這消息只要順利傳達給了Leader,其他Follower有沒有同步就無所謂了。存在一種情況,Leader剛收到了消息,Follower還沒來得及同步Broker就宕機了,但生產者已經認為消息發送成功了,那么此時消息就丟失了。注意,設為1是Kafka的默認配置!可見Kafka的默認配置也不是那么高可用,而是對高可用和高吞吐量做了權衡折中。
第三種是設為All(或者-1),意思是生產者把消息發送出去之后,不僅Leader要接收到,ISR列表中的Follower也要同步到,生產者才會任務消息發送成功。
進一步思考,Asks=All就不會出現丟失消息的情況嗎?答案是否。當ISR列表只剩Leader的情況下,Asks=All相當于Asks=1,這種情況下如果節點宕機了,還能保證數據不丟失嗎?因此只有在Asks=All并且有ISR中有兩個副本的情況下才能保證數據不丟失。
解決問題
繞了一大圈,了解了Kafka的高可用機制,終于回到我們一開始的問題本身,Kafka的一個節點宕機后為什么不可用?
我在開發測試環境配置的Broker節點數是3,Topic是副本數為3,Partition數為6,Asks參數為1。
當三個節點中某個節點宕機后,集群首先會怎么做?沒錯,正如我們上面所說的,集群發現有Partition的Leader失效了,這個時候就要從ISR列表中重新選舉Leader。如果ISR列表為空是不是就不可用了?并不會,而是從Partition存活的副本中選擇一個作為Leader,不過這就有潛在的數據丟失的隱患了。
所以,只要將Topic副本個數設置為和Broker個數一樣,Kafka的多副本冗余設計是可以保證高可用的,不會出現一宕機就不可用的情況(不過需要注意的是Kafka有一個保護策略,當一半以上的節點不可用時Kafka就會停止)。那仔細一想,Kafka上是不是有副本個數為1的Topic?
問題出在了__consumer_offset上,__consumer_offset是一個Kafka自動創建的Topic,用來存儲消費者消費的offset(偏移量)信息,默認Partition數為50。而就是這個Topic,它的默認副本數為1。如果所有的Partition都存在于同一臺機器上,那就是很明顯的單點故障了!當將存儲__consumer_offset的Partition的Broker給Kill后,會發現所有的消費者都停止消費了。
這個問題怎么解決?
第一點,需要將__consumer_offset刪除,注意這個Topic時Kafka內置的Topic,無法用命令刪除,我是通過將logs刪了來實現刪除。
第二點,需要通過設置offsets.topic.replication.factor為3來將__consumer_offset的副本數改為3。
通過將__consumer_offset也做副本冗余后來解決某個節點宕機后消費者的消費問題。
看完上述內容,你們掌握Kafka 宕機以及Kafka 高可用原理是怎樣理解的的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。