中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據性能估算方法是什么

發布時間:2022-01-10 10:08:03 來源:億速云 閱讀:115 作者:柒染 欄目:大數據

大數據性能估算方法是什么,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

大數據的性能是個永恒的話題。不過,在實際工作中我們發現,許多人都不知道如何進行最簡單的性能估算,結果經常被大數據廠商忽悠:)。

其實很簡單,就是算一下這些數據從硬盤上取出來用的時間。除了個別按索引取數的運算外,絕大多數運算都會涉及對數據的整體遍歷,比如分組匯總統計、按條件查詢(非索引字段);那么,這些運算耗用的時間,無論如何不可能小于硬盤訪問的時間,我們就能算出一個理論上的極限值。

比如,有人宣稱實現10T數據的OLAP匯總只需要3秒。那么這意味著什么呢?

常見的15000轉硬盤,在操作系統下的訪問速度也就不到200M/秒,SSD會快一些,但也沒數量級的提升,大概3秒讀1G的樣子。這樣,從單塊硬盤中讀出10T數據就需要30000秒以上,如果想在3秒內完成匯總,那就需要1萬塊硬盤!作為用戶,你是否做了這個準備呢?

當然,硬盤及硬盤在不同環境下的速度不盡相同,可能更快或更慢,但總之都可以用這個簡單的辦法去估算。不知道自家硬盤的速度?那弄個大文件讀一下試試就知道了,拿到實驗數據再去計算會更準確。要強調的是,不能簡單地看硬盤廠商標稱的性能指標,在文件系統下,那個理想值常常連一半都達不到,還是實測的最可靠。

這樣,我們就能知道某個大數據問題最理想的情況能夠達到什么性能,比這個指標還好的期望,在用于估算指標的硬件條件下都是不可能實現的,沒有必要再去琢磨軟件產品和技術方案了。


這種估算也指明了一個優化方向,就是減少存儲量和訪問量。

減少存儲量當然不能減少數據本身,用于計算的數據一條也不能少,否則就出現錯誤結果。減少存儲量要靠數據壓縮的手段。10T的原始數據,如果有好的壓縮手段,實際在硬盤上存儲下來可能只有1T甚至更少,這時候3秒匯總這些數據就不再需要1萬塊硬盤了。

在存儲量不能再減少的情況下,還有些軟件手段來減少訪問量,常用的方法就是列存。一個數據表有100列占了10T,如果只訪問三列進行匯總,那大概只需要訪問300G數據,這時候3秒完成匯總當然也不需要1萬塊硬盤了。

不過,大數據廠商在宣稱10T、3秒這種性能指標時,一般不會明確指出采用壓縮或列存技術后存儲量和訪問量能降到多少。這就容易給用戶造成錯覺,以為這個技術能夠通用地解決大數據問題,而經常,有些數據的壓縮率無法做得很高,對于訪問列較多的運算列存也沒啥優勢。

要更準確地估算性能極限,也要考慮減少存儲量和訪問量的手段。嘗試一下自己的數據能有多大的壓縮率(用常規的zip軟件就可以),并且檢查運算是否是從很多列中取出很少列的情況。

看完上述內容,你們掌握大數據性能估算方法是什么的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

庆元县| 新蔡县| 牙克石市| 安多县| 吉水县| 炉霍县| 崇礼县| 集安市| 东台市| 鲜城| 尼玛县| 林口县| 榆树市| 通化县| 米易县| 霍山县| 永昌县| 犍为县| 阜平县| 广汉市| 富源县| 航空| 商丘市| 永德县| 木里| 清苑县| 花莲市| 安平县| 枣强县| 建平县| 五原县| 鄂伦春自治旗| 疏勒县| 秦安县| 乌兰县| 米林县| 德格县| 从化市| 郯城县| 大厂| 北流市|