splunk VS elasticsearch

發布時間：2020-07-12 20:16:59 來源：網絡閱讀：755 作者：sjfbjs 欄目：大數據

本文就架構，功能，產品線，概念等方面就ElasticSearch和Splunk做了一下全方位的對比，希望能夠大家在制定大數據搜索方案的時候有所幫助。

簡介

ElasticSearch?（1）（2）是一個基于Lucene的開源搜索服務。它提供了一個分布式多用戶能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java開發的，并作為Apache許可條款下的開放源碼發布，是當前流行的企業級搜索引擎。設計用于云計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

ELK是ElasticSearch，Logstash，Kibana的縮寫，分別提供搜索，數據接入和可視化功能，構成了Elastic的應用棧。

Splunk?是大數據領域第一家在納斯達克上市公司，Splunk提供一個機器數據的引擎。使用 Splunk 可收集、索引和利用所有應用程序、服務器和設備（物理、虛擬和云中）生成的快速移動型計算機數據。從一個位置搜索并分析所有實時和歷史數據。使用 Splunk?處理計算機數據，可讓您在幾分鐘內（而不是幾個小時或幾天）解決問題和調查安全事件。監視您的端對端基礎結構，避免服務性能降低或中斷。以較低成本滿足合規性要求。關聯并分析跨越多個系統的復雜事件。獲取新層次的運營可見性以及 IT 和業務智能。

根據最新的數據庫引擎排名顯示，Elastic，Solr和Splunk分別占據了數據庫搜索引擎的前三位。

splunk VS elasticsearch

從趨勢上來看，Elastic和Splunk上升明顯，Elastic更是表現出了非常強勁的勢頭。

splunk VS elasticsearch

基本概念

Elastic

準實時(NRT)
Elasticsearch是一個準實時性的搜索平臺，從數據索引到數據可以被搜索存在一定的時延。
索引（Index）
索引是有共同特性的文檔的集合，索引有自己的名字，可以對索引執行搜索，更新，刪除等操作。
類型（Type）
每個索引可以包含一個或者多個類型，類型可以看作一個索引數據的邏輯分組，通常我們會把擁有相同字段的文檔定義為同一個類型。
文檔（Document）
文檔是索引信息的基本單元。Elastic中文檔表現為JSON對象，文檔物理存貯在索引中，并需要被制定一個類型。因為表現為JSON，很自然的，文檔是由一個個的字段（Feilds）組成，每個字段是一個名值對（Name Value Pair）
評分（score）
Elastic是基于Lucene構建的，所以搜索的結果會有一個打分。來評價搜索結果和查詢的相關性。

下圖是一個Elastic的搜索在Kibana中看到的例子，原始的數據是一個簡單的日志文件：

splunk VS elasticsearch

我們通過logstash索引到Elasticsearch后，就可以搜索了。

splunk VS elasticsearch

Splunk

實時性
Splunk同樣是準實時的，Splunk的實時搜索（Realtime Search）可以提供不間斷的搜索結果的數據流。
事件（Event）
對應于Elastic的文檔，Splunk的數據索引的基本單元是事件，每一個事件包含了一組值，字段，時間戳。Splunk的事件可以是一段文本，一個配置文件，一段日志或者JSON對象。
字段（Fields）
字段是可以被搜索的名值對，不同的事件可能擁有不同的字段。Splunk支持索引時（index time）和搜索時（search time）的字段抽取（fields extraction）
索引（Indexes）
類似Elastic的索引，所有的事件物理存儲在索引上，可以把索引理解為一個數據庫的表。
知識對象（Knowledge Object）
Splunk的知識對象提供對數據進一步的解釋，分類，增強等功能，包括：字段（fields），字段抽取（fields extraction），事件類型（event type），事務（transaction），查找（lookups），標簽（tags），別名（aliases），數據模型（data model）等等。

下圖是一個Splunk的搜索在Splunk客戶端看到的和前一個例子同樣的日志數據的搜索結果。

splunk VS elasticsearch

從基本概念上來看，Elasticsearch和Splunk基本一致。從例子中我們可以看到很多的共性，事件／文檔，時間戳，字段，搜索，時間軸圖等等。其中有幾個主要的差別：

Elastic不支持搜索時的字段抽取，也就是說Elastic的文檔中的所有字段在索引時已經固定了，而Splunk支持在搜索時，動態的抽取新的字段
Elastic的搜索是基于評分機制的，搜索的結果有一個打分，而Splunk沒有對搜索結果評分
Splunk的知識對象可以提供對數據更高級，更靈活的管理能力。

用戶接口

ElasticSearch提供REST API來進行

集群的管理，監控，健康檢查
索引的管理（CURD）
搜索的執行，包括排序，分頁，過濾，腳本，聚合等等高級的搜索功能。

Elasticsearch 本身并沒有提供任何UI的功能，搜索可以用Kibana，但是沒有管理UI還是讓人不爽的，好在開源的好處就是會有很多的開發者來構建缺失的功能：

ElasticHQ
cerebro?(推薦，界面干凈，我喜歡)
dejavu

另一選擇就是安裝X-Pack，這個是要收費的。

Splunk作為企業軟件，管理及訪問接口比較豐富，除了REST API 和命令行接口，Splunk的UI非常友好易用，基本上所有的功能都能通過集成的UI來使用。同時提供以下接口

REST API
Splunk UI
CLI

功能

數據接入和獲取

Elastic棧使用Logstash和Beats來進行數據的消化和獲取。

Logstash用jruby實現，有點像一個數據管道，把輸入的數據進行處理，變形，過濾，然后輸出到其它地方。Logstash 設計了自己的 DSL，包括有區域，注釋，數據類型(布爾值，字符串，數值，數組，哈希)，條件判斷，字段引用等。

Logstash的數據管道包含三個步驟，Input，Filter和Output，每一步都可以通過plugin來擴展。另外Input和Output還支持配置Codecs，完成對輸入輸出數據的編解碼工作。

splunk VS elasticsearch

Logstash支持的常見的Input包含File，syslog，beats等。Filter中主要完成數據的變形處理，可以增刪改字段，加標簽，等等。作為一個開源軟件，Output不僅僅支持ElasticSearch，還可以和許多其它軟件集成和目標，Output可以是文件，graphite，數據庫，Nagios，S3，Hadoop等。

splunk VS elasticsearch

在實際運用中，logstash 進程會被分為兩個不同的角色。運行在應用服務器上的，盡量減輕運行壓力，只做讀取和轉發，這個角色叫做 shipper；運行在獨立服務器上，完成數據解析處理，負責寫入 Elasticsearch 的角色，叫 indexer。

logstash 作為無狀態的軟件，配合消息隊列系統，可以很輕松的做到線性擴展

Beats是 Elastic?從 packetbeat 發展出來的數據收集器系統。beat 收集器可以直接寫入 Elasticsearch，也可以傳輸給 Logstash。其中抽象出來的 libbeat，提供了統一的數據發送方法，輸入配置解析，日志記錄框架等功能。

splunk VS elasticsearch

開源社區已經貢獻了許多的beats種類。

因為Beats是使用Golang編寫的，效率上很不錯。

Splunk使用Farwarder和Add-ons來進行數據的消化和獲取。

Splunk內置了對文件，syslog，網絡端口等input的處理。當配置某個節點為Forwarder的時候，Splunk Forwarder可以作為一個數據通道把數據發送到配置好的indexer去。這時候，它就類似logstash。這里一個主要的區別就是對數據字段的抽取，Elastic必須在logstash中通過filter配置或者擴展來做，也就是我們所說的Index time抽取，抽取后不能改變。Splunk支持Index time的抽取，但是更多時候，Splunk 在index time并不抽取而是等到搜索是在決定如何抽取字段。

對于特定領域的數據獲取，Splunk是用Add-on的形式。Splunk 的App市場上有超過600個不同種類的Add-on。

splunk VS elasticsearch

用戶可以通過特定的Add-on或者自己開發Add-on來獲取特定的數據。

對于大數據的數據采集，大家也可以參考我的另一篇博客。

數據管理和存儲

ElasticSearch的數據存貯模型來自于Lucene，基本原理是實用了倒排表。大家可以參考這篇文章。

Splunk的核心同樣是倒排表，推薦大家看這篇去年Splunk Conf上的介紹，Behind the Magnifying Glass: How Search Works

splunk VS elasticsearch

Splunk的Event存在許多Buckets中，多個Buckets構成邏輯分組的索引分布在Indexer上。

splunk VS elasticsearch

每個Bucket中都是倒排表的結構存儲數據，原始數據通過gzip壓縮。

splunk VS elasticsearch

搜索時，利用Bloom filter定位數據所在的bucket。

在對數據的存儲管理上，Elastic 和Splunk都是利用了倒排表。Splunk對數據進行壓縮，所以存儲空間的占用要少很多，尤其考慮到大部分數據是文本，壓縮比很高的，當然這會損失一部分性能用于數據的解壓。

數據分析和處理

對數據的處理分析，ElasticSearch主要使用?Search API來實現。而Splunk則提供了非常強大的SPL，相比起ES的Search API，Splunk的SPL要好用很多，可以說SPL就是非結構化數據的SQL。無論是利用SPL來開發分析應用，還是直接在Splunk UI上用SPL來處理數據，SPL都非常易用。開源社區也在試圖為Elastic增加類似SPL的DSL來改善數據處理的易用性。例如：

https://github.com/chenryn/ESPL

從這篇反饋可以看出，ES的search還有許多的不足。

splunk VS elasticsearch

作為對此的響應，Elastic推出了painless script，該功能還處于實驗階段。

數據展現和可視化

Kibana是一個針對Elasticsearch的開源分析及可視化平臺，用來搜索、查看交互存儲在Elasticsearch索引中的數據。使用Kibana，可以通過各種圖表進行高級數據分析及展示。

splunk VS elasticsearch

Splunk集成了非常方便的數據可視化和儀表盤功能，對于SPL的結果，可以非常方便的通過UI的簡單設置進行可視化的分析，導出到儀表盤。

splunk VS elasticsearch

下圖的比較來自https://www.itcentralstation.com/products/comparisons/kibana_vs_splunk

splunk VS elasticsearch

在數據可視化的領域的排名，Splunk僅僅落后于Tableau而已

splunk VS elasticsearch

擴展性

從擴展性的角度來看，兩個平臺都擁有非常好的擴展性。

Elastic棧作為一個開源棧，很容易通過Plugin的方式擴展。包括：

ElasticSearch Plugin?
Kibana Plugin
Logstash Plugin
Beats Platform

Splunk提供一系列的擴展點支持應用和Add-on的開發，在http://dev.splunk.com/可以找到更多的信息和文檔。包括：

Web Framework
SDK
Modular Input
… …

比起Elastic的Plugin，Splunk的擴展概念上比較復雜，開發一個App或者Add-on的門檻都要相對高一些。做為一個數據平臺，Splunk應該在擴展性上有所改進，使得擴展變的更為容易和簡單。

架構

Elastic Stack

splunk VS elasticsearch

如上圖所示，ELK是一套棧，Logstash提供數據的消化和獲取，Elasticsearch對數據進行存儲，索引和搜索，而Kibana提供數據可視化和報表的功能。

Splunk

splunk VS elasticsearch

Splunk的架構主要有三個角色：

Indexer
Indexer提供數據的存儲，索引，類似Elasticsearch的作用
Search Head
Search Head負責搜素，客戶接入，從功能上看，一部分是Kibana，因為Splunk的UI是運行在Search Head上的，提供所有的客戶端和可視化的功能，還有一部分，是提供分布式的搜索功能，包含對搜索的分發到Indexer和搜索結果的合并，這一部分功能對應在Elasticsearch上。
Forwarder
Splunk的Forwarder負責數據接入，類似Logstash

除了以上的三個主要的角色，Splunk的架構中還有：Deployment Server，License Server，Master Cluster Node，Deployer等。

Splunk和ELK的基本架構非常類似，但是ELK的架構更為簡單和清楚，Logstash負責數據接入，Kibana負責數據展現，所有的復雜性在Elasticsearch中。Splunk的架構更為復雜一些，角色的類型也更多一些。

如果裝單機版本，Splunk更容易，因為所有的功能一次性就裝好了，而ELK則必須分別安裝E/L/K，從這一點上來看，Splunk有一定的優勢。

分布集群和擴展性

ElasticSearch

splunk VS elasticsearch

ElasticSearch是為分布式設計的，有很好的擴展性，在一個典型的分布式配置中，每一個節點（node）可以配制成不同的角色，如上圖所示：

Client Node，負責API和數據的訪問的節點，不存儲／處理數據
Data Node，負責數據的存儲和索引
Master Node，管理節點，負責Cluster中的節點的協調，不存儲數據。

每一種角色可以通過ElasticSearch的配置文件或者環境變量來配置。每一種角色都可以很方便的Scale，因為Elastic采用了對等性的設計，也就是所有的角色是平等的，（Master Node會進行Leader Election，其中有一個是領導者）這樣的設計使得在集群環境的伸縮性非常好，尤其是在容器環境，例如Docker Swarm或者Kubernetes中使用。

參考：

https://elk-docker.readthedocs.io/#elasticsearch-cluster
https://github.com/pires/kubernetes-elasticsearch-cluster

Splunk

Splunk作為企業級的分布式機器數據的平臺，擁有強大的分布式配置，包括跨數據中心的集群配置。Splunk提供兩種集群，Indexer集群和Search Head集群。

Splunk?Indexer集群

splunk VS elasticsearch

如上圖所示，Splunk的indexer集群主要由三種角色：

Master Node，Master Node負責管理和協調整個的集群，類似ES的Master。但是只有一個節點，不支持多Master（最新版本6.6）。Master Node負責
- 協調Peer Node之間的數據復制
- 告訴Search Head數據在哪里
- Peer Node的配置管理
- Peer Node故障時的故障恢復
Peer Nodes，負責數據索引，類似ES的Data Node，Peer Node負責
- 存儲索引數據
- 發送／接收復制數據到其他Peer節點
- 響應搜索請求
Search Head，負責數據的搜索和客戶端API訪問，類似ES的Client Node，但不完全相同。Search Head負責發送搜索請求到Peer Nodes，并對搜索的結果進行合并。

有人會問，那Master是不是集群中的單點故障？What if Master node goes down？Splunk的回答是否。即使Master 節點出現故障，Peer Nodes仍然可以正常工作，除非，同時有Peer Node出現故障。

http://docs.splunk.com/Documentation/Splunk/6.6.1/Indexer/Whathappenswhenamasternodegoesdown
https://answers.splunk.com/answers/129446/why-does-master-node-continue-to-be-single-point-of-failure-in-clustering.html

Splunk?Search Header 集群

splunk VS elasticsearch

Search Head集群是由一組Search Head組成，它們共享配置，搜索任務等狀態。該Cluster主要有以下角色：

Deployer，負責分發狀態和應用到peers
Cluster Member，其中有一個是Captain，負責協調。Cluster Memeber之間會互相通信，來保證狀態一致。Load Balancer是個可選項，可以負責Search的接入。
Search Peers，負責數據索引的?Indexer Nodes

另外Splunk還曾經提供過一個功能叫做Search Head Pooling，不過現在已經Depecated了。

Indexer集群可以和Search Head集群一起配置，構成一個分布式的Splunk配置。

相比較ES的相對比較簡單的集群配置，Splunk的集群配置比較復雜，ES中所有每一個節點可以靈活的配置角色，并且可以相對比較容易的擴展，利用例如Kubernetes的Pod的復制可以很容易的擴展每一個角色。擴展Splunk相對比較困難，要做到動態的伸縮，需要比較復雜的配置。大家可以參考這里，在容器環境里配置一個Splunk的集群需要比較多的布置，例如在這個Master的配置中，用戶需要考慮：

如何配置License
修改缺省的用戶名口令
為每一個Search Head配置Search Head Cluster
等待Splunk進程成功啟動
配置業務發現
安裝應用
… …

并且集群的擴展很難直接利用容器編排平臺提供的擴展接口，這一點Splunk還有很多提高的空間。

產品線

Elastic

splunk VS elasticsearch

Elastic的產品線除了大家熟悉的ELK（ElasticSearch，Logstash，Kikana），主要包含

Beats?Beats是一個開源組件，提供一個代理，把本地抓到的數據傳送到ElasticSearch
Elastic Cloud， Elasti提供的云服務
X-Pack， Elastic的擴展組件，提供安全，告警，監控，機器學習和圖處理能力。主要功能需要付費使用。

Splunk

splunk VS elasticsearch

Splunk的產品線包括

Splunk Enterprise
Splunk Cloud， Splunk運營的云服務，跑在AWS上
Splunk Light，Splunk Light版本，功能有所精簡，面向中小企業
Hunk， Splunk on Hadoop
Apps ／ Add-ons, ?Splunk提供大量的應用和數據獲取的擴展，可以參考?http://apps.splunk.com/
Splunk ITSI （IT Service Intelligence）， Splunk為IT運維專門開發的產品
Splunk ES （Enterprise Security）， Splunk為企業安全開發的產品，這個是Splunk 公司的拳頭產品，連續被Gartner評為SIEM領域的領導者，挑戰了該行業的傳統巨鱷IBM，HP
Splunk UBA （User Behavior Analytic）， UBA是Splunk在15年收購的Caspidia帶來的基于機器學習的安全產品。

從產品線的角度來看，Splunk除了提供基本平臺，在IT運維和安全領域都有自己的拳頭產品。Elastic缺乏某個領域的應用。

價格

價格是大家非常關心的一個因素

Elastic的基本組件都是開源的，參看下表，X-pack中的一些高級功能需要付費使用。包含安全，多集群，報表，監控等等。

splunk VS elasticsearch

云服務的價格參考下圖，ES的云是按照所使用的資源來收費，從這里選取的區域可以看出，ES的云也是運行在AWS上的。下圖中的配置每月需要花費200美元左右。（不同區域的收費不同）

splunk VS elasticsearch

同時，除了Elastic自己，還有許多其他公司也提供Elastic Search的云服務，例如Bonsai，Qbox.io等。

splunk VS elasticsearch

Splunk

Splunk Enterprise是按照數據每日的流量按年或者無限制事件付費，每天1GB的話，每年是2700美元，每個月也是差不多200塊。如果每天的數據量少于500M，可以使用Splunk提供的免費License，只是不能用安全，分布式等高級功能，500M可以做很多事情了。

splunk VS elasticsearch

云服務的價格就要便宜多了，每天5GB，每年只要2430元，每個月不到200塊。當然因為計費的方式不同，和Elastic的云就不好比較了。另外因為是在AWS上，中國的用戶，呵呵了。

splunk VS elasticsearch

總結

大數據的搜索平臺已經成為了眾多企業的標配，Elastic棧和Splunk是其中最為優秀和流行的選擇。兩者都有各自的優點和值得改進的地方。希望本文能夠在你的大數據平臺的選型上，有所幫助。也希望大家來和我交流，共同成長。

參考文檔

ELK

ElasticSearch 參考文檔https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
Github上收集的ElasticSearch相關開源軟件列表?https://github.com/dzharii/awesome-elasticsearch
知乎ElaticSearch專題?https://www.zhihu.com/topic/19899427/hot
中文書?https://github.com/chenryn/ELKstack-guide-cn
中文書?https://www.gitbook.com/book/wizardforcel/mastering-elasticsearch/details

Splunk

Splunk 文檔?https://docs.splunk.com/Documentation
Splunk電子書?https://www.splunk.com/web_assets/v5/book/Exploring_Splunk.pdf
Splunk 開發文檔?http://dev.splunk.com/getstarted
Splunk 應用市場?http://apps.splunk.com/
Splunk 快速參考?https://www.splunk.com/content/dam/splunk2/pdfs/solution-guides/splunk-quick-reference-guide.pdf

其它

https://www.upguard.com/articles/splunk-vs-elk
https://db-engines.com/en/system/Elasticsearch%3BSplunk
https://www.searchtechnologies.com/blog/log-analytics-tools-open-source-vs-commercial
http://www.learnsplunk.com/splunk-vs-elk-stack.html

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

splunk VS elasticsearch

簡介

基本概念

用戶接口