中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

什么是布隆過濾器,它在Redis中如何使用

發布時間:2021-06-25 09:34:20 來源:億速云 閱讀:233 作者:chen 欄目:關系型數據庫

本篇內容介紹了“什么是布隆過濾器,它在Redis中如何使用”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

布隆過濾器是一個神奇的數據結構,本篇文章帶大家深入了解一下布隆過濾器,介紹一下Redis中使用布隆過濾器的方法。

什么是『布隆過濾器』

布隆過濾器是一個神奇的數據結構,可以用來判斷一個元素是否在一個集合中。很常用的一個功能是用來去重。在爬蟲中常見的一個需求:目標網站 URL 千千萬,怎么判斷某個 URL 爬蟲是否寵幸過?簡單點可以爬蟲每采集過一個 URL,就把這個 URL 存入數據庫中,每次一個新的 URL 過來就到數據庫查詢下是否訪問過。

select id from table where url = 'https://jaychen.cc'

但是隨著爬蟲爬過的 URL 越來越多,每次請求前都要訪問數據庫一次,并且對于這種字符串的 SQL 查詢效率并不高。除了數據庫之外,使用 Redis 的 set 結構也可以滿足這個需求,并且性能優于數據庫。但是 Redis 也存在一個問題:耗費過多的內存。這個時候布隆過濾器就很橫的出場了:這個問題讓我來。

相比于數據庫和 Redis,使用布隆過濾器可以很好的避免性能和內存占用的問題。

布隆過濾器本質是一個位數組,位數組就是數組的每個元素都只占用 1 bit 。每個元素只能是 0 或者 1。這樣申請一個 10000 個元素的位數組只占用 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個位數組,還有 K 個哈希函數。當一個元素加入布隆過濾器中的時候,會進行如下操作:

  • 使用  K 個哈希函數對元素值進行 K 次計算,得到 K 個哈希值。

  • 根據得到的哈希值,在位數組中把對應下標的值置為 1。

舉個,假設布隆過濾器有 3 個哈希函數:f1, f2, f3 和一個位數組 arr。現在要把 https://jaychen.cc 插入布隆過濾器中:

  • 對值進行三次哈希計算,得到三個值 n1, n2, n3。

  • 把位數組中三個元素 arr[n1], arr[n2], arr[3] 置為 1。

當要判斷一個值是否在布隆過濾器中,對元素再次進行哈希計算,得到值之后判斷位數組中的每個元素是否都為 1,如果值都為 1,那么說明這個值在布隆過濾器中,如果存在一個值不為 1,說明該元素不在布隆過濾器中。

看不懂文字看下面的靈魂畫手的圖解釋

什么是布隆過濾器,它在Redis中如何使用

看了上面的說明,必然會提出一個問題:當插入的元素原來越多,位數組中被置為 1 的位置就越多,當一個不在布隆過濾器中的元素,經過哈希計算之后,得到的值在位數組中查詢,有可能這些位置也都被置為 1。這樣一個不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。但是如果布隆過濾器判斷說一個元素不在布隆過濾器中,那么這個值就一定不在布隆過濾器中。簡單來說:

  • 布隆過濾器說某個元素在,可能會被誤判。

  • 布隆過濾器說某個元素不在,那么一定不在。

這個布隆過濾器的缺陷放到上面爬蟲的需求中,可能存在某些沒有訪問過的 URL 可能會被誤判為訪問過,但是如果是訪問過的 URL 一定不會被誤判為沒訪問過。

Redis 中的布隆過濾器

redis 在 4.0 的版本中加入了 module 功能,布隆過濾器可以通過 module 的形式添加到 redis 中,所以使用 redis 4.0 以上的版本可以通過加載 module 來使用 redis 中的布隆過濾器。但是這不是最簡單的方式,使用 docker 可以直接在 redis 中體驗布隆過濾器。

> docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom
> docker exec -it bloomfilter redis-cli

redis 布隆過濾器主要就兩個命令:

  • bf.add 添加元素到布隆過濾器中:bf.add urls https://jaychen.cc

  • bf.exists 判斷某個元素是否在過濾器中:bf.exists urls https://jaychen.cc

上面說過布隆過濾器存在誤判的情況,在 redis 中有兩個值決定布隆過濾器的準確率:

  • error_rate:允許布隆過濾器的錯誤率,這個值越低過濾器的位數組的大小越大,占用空間也就越大。

  • initial_size:布隆過濾器可以儲存的元素個數,當實際存儲的元素個數超過這個值之后,過濾器的準確率會下降。

redis 中有一個命令可以來設置這兩個值:

bf.reserve urls 0.01 100

三個參數的含義:

  • 第一個值是過濾器的名字。

  • 第二個值為 error_rate 的值。

  • 第三個值為 initial_size 的值。

使用這個命令要注意一點:執行這個命令之前過濾器的名字應該不存在,如果執行之前就存在會報錯:(error) ERR item exists

“什么是布隆過濾器,它在Redis中如何使用”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

灌云县| 临邑县| 巴塘县| 克什克腾旗| 蛟河市| 本溪市| 伊宁县| 黄浦区| 苍南县| 长乐市| 潜山县| 富锦市| 龙江县| 神池县| 会泽县| 仁化县| 六安市| 阿合奇县| 和顺县| 琼中| 江达县| 四子王旗| 庄浪县| 云霄县| 高台县| 青阳县| 琼结县| 喀什市| 讷河市| 福清市| 襄樊市| 梅州市| 靖边县| 武清区| 汽车| 故城县| 松桃| 西安市| 濮阳县| 水富县| 潢川县|