中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

簡單了解一下大數據的一些基本概念

發布時間:2020-07-03 09:02:12 來源:網絡 閱讀:473 作者:a大數據 欄目:大數據

一、大數據

1、什么是大數據?

大數據(Big data或Megadata):大數據,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間達到截取、管理、處理、并整理成為人類所能解讀的形式的信息。

2、大數據特點

①Volume:數據量大,包括采集、存儲和計算的量都非常大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
簡單了解一下大數據的一些基本概念

②Variety:種類和來源多樣化。包括結構化、半結構化和非結構化數據,具體表現為網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。

在這里還是要推薦下我自己建的大數據學習交流群:529867072,群里都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發黨,不定期分享干貨(只有大數據軟件開發相關的),包括我自己整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小伙伴加入。

③Value:數據價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯網以及物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何結合業務邏輯并通過強大的機器算法來挖掘數據價值,是大數據時代最需要解決的問題。

④Velocity:數據增長速度快,處理速度也快,時效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。這是大數據區別于傳統數據挖掘的顯著特征。

⑤Veracity:數據的準確性和可信賴度,即數據的質量。

二、數據倉庫

1、什么是數據倉庫?

在計算中,數據倉庫(DW或DWH)也稱為企業數據倉庫(EDW),是用于報告和數據分析的系統,被視為商業智能的核心組件。DWs從一個或多個不同源的綜合數據的中央儲存庫。他們將當前和歷史數據存儲在一個地方,用于為整個企業的工作人員創建分析報告。

2、數據倉庫兩種操作方式的特點

①在線分析處理(OLAP)的特點是交易量相對較低。查詢往往非常復雜,涉及到聚合。對于OLAP系統,響應時間是一種有效性度量。數據挖掘技術廣泛使用OLAP應用程序。OLAP數據庫以多維模式(通常為星型模式)存儲匯總的歷史數據。與數據集市相比,OLAP系統通常具有數小時的數據延遲,而數據集市預計延遲將接近一天。OLAP方法用于分析來自多個來源和視角的多維數據。OLAP中的三個基本操作是:總結(合并),鉆取和切片和切塊。

②聯機事務處理(OLTP)的特點是大量短暫的在線事務(INSERT,UPDATE,DELETE)。OLTP系統強調非常快速的查詢處理并保持多訪問環境中的數據完整性。對于OLTP系統,有效性以每秒交易次數來衡量。OLTP數據庫包含詳細和當前的數據。用于存儲事務數據庫的模式是實體模型(通常是3NF)。規范化是對在該系統中數據建模技術的規范。

三、ETL與DM的區別

ETL/Extraction-Transformation-Loading——用于完成DB到DW的數據轉存,它將DB中的某一個時間點的狀態,“抽取”出來,根據DW的存儲模型要求,“轉換”一下數據格式,然后再“加載”到DW的一個過程,這里需要強調的是,DB的模型是ER模型,遵從范式化設計原則,而DW的數據模型是雪花型結構或者星型結構,用的是面向主題,面向問題的設計思路,所以DB和DW的模型結構不同,需要進行轉換。

DM/Data Mining/數據挖掘——這個挖掘,不是簡單的統計了,他是根據概率論的或者其他的統計學原理,將DW中的大數據量進行分析,找出我們不能直觀發現的規律。

四、Hadoop

1、什么是Hadoop?

維基百科上面,Hadoop的定義是:一個用java語言編寫的便于大型數據集合的分布式儲存和計算的軟件框架。簡單來說,這是計算機領域的一個開源軟件,任何程序開發者都可以看到它的源代碼,并且進行編譯。它的出現讓大數據的儲存和處理一下子變的快了很多,也便宜了很多。

2、Hadoop特點是什么?

①高效率(Efficient):分布式云計算,采用標準x86架構服務器大規模集群實現,每個模塊都是一個離散的處理單元,使用并行計算技術,及群內各計算節點負載均衡,當某節點負荷過高時,可智能的將負荷轉移到其他節點,并支持節點線性平滑擴展;分布式云存儲,采用x86服務器的本地硬盤實現,使用分布式文件系統,每份數據至少保存在3個節點,保證存儲設計的性能和可靠性目標。

②可靠性(Reliable):能搞自身的維護數據的多個成本,并且在任務失敗是自動的重新部署計算任務

③可擴容性(Scalable):能可靠的儲存和處理PB級的數據

④成本低(Economical):可以通過普通機器組成的服務器群來分發以及處理數據。這些服務器群總計可達數千個節點。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

连江县| 平泉县| 申扎县| 台安县| 津南区| 伊川县| 都匀市| 扶绥县| 加查县| 山阳县| 会昌县| 鄂尔多斯市| 收藏| 黄冈市| 阳春市| 新丰县| 南雄市| 高雄县| 麻城市| 醴陵市| 揭西县| 当涂县| 泉州市| 台北县| 乌恰县| 漳州市| 安乡县| 长白| 永昌县| 福鼎市| 常山县| 咸阳市| 盐津县| 剑阁县| 巴东县| 麻城市| 昭苏县| 江口县| 台东市| 隆林| 田阳县|