elasticsearch的ScanScroll如何使用

發布時間：2021-12-16 10:11:15 來源：億速云閱讀：242 作者：iii 欄目：云計算

這篇文章主要講解了“elasticsearch的ScanScroll如何使用”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“elasticsearch的ScanScroll如何使用”吧！

ScanScroll 的特點

優點

速度快
大數據量

缺點

不支持排序
不支持分頁
不支持評分
不支持續查

使用場景

看起來，缺點要比優點多很多，不過它很有用。如果說BULK是為了快速入庫存在的，那SCAN就是為了快速出庫而誕生的。ES的查詢性能優越，但是分析能力弱。所以會有,比如把ES的數據拉到Hadoop集群去分析計算的需求，當然這個已經有現成的插件了，不出所料也是用的SCAN。如果SCAN遭遇BULK，也就是ES到ES的話，它有另一個更熟悉的名字叫復制表。

使用方法

def scanTest():
    searchRes = es.search(index="users",size=10,body={"query": {"match_all": {}}},search_type="scan",scroll="10s")
    while True:
        scrollRes=es.scroll(scroll_id=searchRes["_scroll_id"],scroll="10s",ignore=[400, 404])
        res_list = scrollRes["hits"]["hits"]
        if not len(res_list):
            break;
        for res in res_list:
            print res["_source"]["userName"]

原理流程

整個流程比較清晰，先count一個總數，下面每次scroll，返回size*分片數的數據，直到遍歷全部。SCAN是支持查詢偏好preference的，可以指定分片，所以有人說的size*主分片數，是不準確的，這個很容易驗證。

第一階段：Search

用TotalHitCountCollector統計下總數，并且確定（節點，查詢上下文ID），Base64編碼成ScrollId返回

第二階段：SearchScroll

根據ScrollId去每個節點，找到查詢上下文ID執行XFilteredQuery，收集結果，合并返回

第一階段除了返回總數，還有一個很神秘的ScrollId，這個ScrollId長成這樣，很像Base64編碼過的。一定不是ID那么簡單，了解一番，果不其然，主要有3個部分組成type,context,attributes

type 分別是queryThenFetch,queryAndFetch,scan,我們這里講的是scan
attributes 只有一個元素，total_hits
context 是個分片的元組，有2個元素，分片 = [節點ID,查詢上下文ID]

ScrollId 是個很容易會暴露秘密的東西，我們會發現ScrollId 依賴的節點ID和查詢上下文ID都是變量，查詢上下文ID，每次請求都要遞增的。所以每次請求的ScrollId 都不一樣，導致了如果在我們的SCAN過程意外終止，我們可能需要重新來過。

每次SCAN，處理Scroll跳到下一頁去，我們自己指定form是無效的。

//SearchService
private void processScroll(InternalScrollSearchRequest request, SearchContext context) {
        // process scroll
        context.from(context.from() + context.size());
        context.scroll(request.scroll());
        // ...
 }

//ScanContext
public TopDocs execute(SearchContext context) throws IOException {
        ScanCollector collector = new ScanCollector(readerStates, context.from(), context.size(), context.trackScores());
        Query query = new XFilteredQuery(context.query(), new ScanFilter(readerStates, collector));
        try {
            context.searcher().search(query, collector);
        } catch (ScanCollector.StopCollectingException e) {
            // all is well
        }
        return collector.topDocs();
}

自定義的Filter，Collector，執行搜索，收集那一頁的結果集

 //ScanContext
 public void collect(int doc) throws IOException {
            if (counter >= from) {
                docs.add(new ScoreDoc(docBase + doc, trackScores ? scorer.score() : 0f));
            }
            readerState.count++;
            counter++;
            if (counter >= to) {
                throw StopCollectingException;
            }
}

根據以往數據庫的認識，count操作總是很慢的，這讓我很擔心會延長整個查詢的時間，后來我發現這種擔心是多余的，對于全文檢索count操作是很快速的。根據測試，17億數據24個分片，平均每個分片的count時間在200ms到700ms之間，最糟糕的情況下總數也能在1秒內返回，這對于整個查詢時間而言是可以接受的。

感謝各位的閱讀，以上就是“elasticsearch的ScanScroll如何使用”的內容了，經過本文的學習后，相信大家對elasticsearch的ScanScroll如何使用這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

elasticsearch的ScanScroll如何使用

使用場景

使用方法

原理流程

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

elasticsearch的ScanScroll如何使用

使用場景

使用方法

原理流程

猜你喜歡

最新資訊

相關推薦

相關標簽