中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

突發宕機時Kafka寫入的數據該如何保證不丟失

發布時間:2021-12-15 11:47:39 來源:億速云 閱讀:176 作者:柒染 欄目:開發技術

本篇文章給大家分享的是有關突發宕機時Kafka寫入的數據該如何保證不丟失,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

相信大家都知道了寫入 Kafka 的數據是會落地寫入磁盤的,下面給大家聊下寫入  Kafka 的數據該如何保證其不丟失?

我們暫且不考慮寫磁盤的具體過程,先大致看看下面的圖,這代表了 Kafka 的核心架構原理。

突發宕機時Kafka寫入的數據該如何保證不丟失

Kafka 分布式存儲架構

那么現在問題來了,如果每天產生幾十 TB 的數據,難道都寫一臺機器的磁盤上嗎?這明顯是不靠譜的啊!

所以說,這里就得考慮數據的分布式存儲了,我們結合 Kafka 的具體情況來說說。

在 Kafka 里面,有一個核心的概念叫做“Topic”,這個 Topic 你就姑且認為是一個數據集合吧。

舉個例子,如果你現在有一份網站的用戶行為數據要寫入 Kafka,你可以搞一個 Topic  叫做“user_access_log_topic”,這里寫入的都是用戶行為數據。

然后如果你要把電商網站的訂單數據的增刪改變更記錄寫 Kafka,那可以搞一個 Topic  叫做“order_tb_topic”,這里寫入的都是訂單表的變更記錄。

然后假如說咱們舉個例子,就說這個用戶行為 Topic 吧,里面如果每天寫入幾十 TB 的數據,你覺得都放一臺機器上靠譜嗎?

明顯不太靠譜,所以 Kafka 有一個概念叫做 Partition,就是把一個 Topic 數據集合拆分為多個數據分區,你可以認為是多個數據分片,每個  Partition 可以在不同的機器上,儲存部分數據。

這樣,不就可以把一個超大的數據集合分布式存儲在多臺機器上了嗎?大家看下圖,一起來體會一下。

突發宕機時Kafka寫入的數據該如何保證不丟失

Kafka 高可用架構

但是這個時候,我們又會遇到一個問題,就是萬一某臺機器宕機了,這臺機器上的那個 Partition 管理的數據不就丟失了嗎?

所以說,我們還得做多副本冗余,每個 Partition 都可以搞一個副本放在別的機器上,這樣某臺機器宕機,只不過是 Partition  其中一個副本丟失。

如果某個 Partition 有多副本的話,Kafka 會選舉其中一個 Parititon 副本作為 Leader,然后其他的 Partition 副本是  Follower。

只有 Leader Partition 是對外提供讀寫操作的,Follower Partition 就是從 Leader Partition  同步數據。

一旦 Leader Partition 宕機了,就會選舉其他的 Follower Partition 作為新的 Leader Partition  對外提供讀寫服務,這不就實現了高可用架構了?

大家看下面的圖,看看這個過程:

突發宕機時Kafka寫入的數據該如何保證不丟失

Kafka 寫入數據丟失問題

現在我們來看看,什么情況下 Kafka 中寫入數據會丟失呢?其實也很簡單,大家都知道寫入數據都是往某個 Partition 的 Leader  寫入的,然后那個 Partition 的 Follower 會從 Leader 同步數據。

但是萬一 1 條數據剛寫入 Leader Partition,還沒來得及同步給 Follower,此時 Leader Partiton  所在機器突然就宕機了呢?

大家看下圖:

突發宕機時Kafka寫入的數據該如何保證不丟失

如上圖,這個時候有一條數據是沒同步到 Partition0 的 Follower 上去的,然后 Partition0 的 Leader  所在機器宕機了。

此時就會選舉 Partition0 的 Follower 作為新的 Leader 對外提供服務,然后用戶是不是就讀不到剛才寫入的那條數據了?

因為 Partition0 的 Follower 上是沒有同步到***的一條數據的。這個時候就會造成數據丟失的問題。

Kafka 的 ISR 機制是什么?

現在我們先留著這個問題不說具體怎么解決,先回過頭來看一個 Kafka 的核心機制,就是 ISR 機制。

這個機制簡單來說,就是會自動給每個 Partition 維護一個 ISR 列表,這個列表里一定會有 Leader,然后還會包含跟 Leader 保持同步的  Follower。

也就是說,只要 Leader 的某個 Follower 一直跟他保持數據同步,那么就會存在于 ISR 列表里。

但是如果 Follower 因為自身發生一些問題,導致不能及時的從 Leader 同步數據過去,那么這個 Follower  就會被認為是“out-of-sync”,被從 ISR 列表里踢出去。

所以大家先得明白這個 ISR 是什么,說白了,就是 Kafka 自動維護和監控哪些 Follower 及時的跟上了 Leader 的數據同步。

Kafka 寫入的數據如何保證不丟失?

所以如果要讓寫入 Kafka 的數據不丟失,你需要保證如下幾點:

  • 每個 Partition 都至少得有 1 個 Follower 在 ISR 列表里,跟上了 Leader 的數據同步。

  • 每次寫入數據的時候,都要求至少寫入 Partition Leader 成功,同時還有至少一個 ISR 里的 Follower  也寫入成功,才算這個寫入是成功了。

  • 如果不滿足上述兩個條件,那就一直寫入失敗,讓生產系統不停的嘗試重試,直到滿足上述兩個條件,然后才能認為寫入成功。

  • 按照上述思路去配置相應的參數,才能保證寫入 Kafka 的數據不會丟失。

好!現在咱們來分析一下上面幾點要求。

第一條,必須要求至少一個 Follower 在 ISR 列表里。

那必須的啊,要是 Leader 沒有 Follower 了,或者是 Follower 都沒法及時同步 Leader  數據,那么這個事兒肯定就沒法弄下去了。

第二條,每次寫入數據的時候,要求 Leader 寫入成功以外,至少一個 ISR 里的 Follower 也寫成功。

大家看下面的圖,這個要求就是保證說,每次寫數據,必須是 Leader 和 Follower  都寫成功了,才能算是寫成功,保證一條數據必須有兩個以上的副本。

這個時候萬一 Leader 宕機,就可以切換到那個 Follower 上去,那么 Follower 上是有剛寫入的數據的,此時數據就不會丟失了。

突發宕機時Kafka寫入的數據該如何保證不丟失

如上圖所示,假如現在 Leader 沒有 Follower 了,或者是剛寫入 Leader,Leader 立馬就宕機,還沒來得及同步給  Follower。

在這種情況下,寫入就會失敗,然后你就讓生產者不停的重試,直到 Kafka 恢復正常滿足上述條件,才能繼續寫入。這樣就可以讓寫入 Kafka  的數據不丟失。

以上就是突發宕機時Kafka寫入的數據該如何保證不丟失,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

静安区| 响水县| 鄱阳县| 锡林浩特市| 清河县| 长宁区| 肇东市| 庄河市| 隆林| 渝中区| 时尚| 罗江县| 东至县| 武清区| 湄潭县| 故城县| 洛阳市| 庆阳市| 镶黄旗| 安丘市| 华阴市| 汶上县| 黔西县| 乌鲁木齐市| 定远县| 建湖县| 泰宁县| 乐陵市| 阿城市| 乌拉特中旗| 平潭县| 南通市| 武邑县| 葵青区| 马山县| 崇左市| 庆元县| 廊坊市| 叙永县| 安泽县| 蒲城县|