中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

給全文搜索引擎Manticore (Sphinx) search 增加中文分詞

發布時間:2020-06-25 07:42:53 來源:網絡 閱讀:533 作者:老猿同學 欄目:編程語言

Sphinx search 是一款非常棒的開源全文搜索引擎,它使用C++開發,索引和搜索的速度非常快,我使用sphinx的時間也有好多年了。最初使用的是coreseek,一個國人在sphinxsearch基礎上添加了mmseg分詞的搜索引擎,可惜后來不再更新,sphinxsearch的版本太低,bug也會出現;后來也使用最新的sphinxsearch,它可以支持幾乎所有語言,通過其內置的ngram tokenizer對中文進行索引和搜索。

但是,像中文、日文、韓文這種文字使用ngram還是有很大弊端的:

當Ngram=1時,中文(日文、韓文)被分解成一個個的單字,就像把英文分解成一個個字母那樣。這會導致每個單字的索引很長,搜索效率下降,同時搜索結果習慣性比較差。

當Ngram=2或更大時,會產生很多無意義的“組合”,比如“的你”、“為什”等,導致索引的字典、索引文件等非常大,同時也影響搜索速度。

基于以上弊端,為中日韓文本加入分詞的tokenizer是很有必要的。

于是決定來做這件事。先去Sphinxsearch網站去看看,發現它已經發布了新的3.x版本,而且加入了很多很棒的特性,然而它從Sphinxsearch 3.x 開始,暫時不再開源. 不過,部分前Sphinxsearch的開發人員跳出來成立新團隊,在Sphinx 2.x版本基礎上開發自己的Manticoresearch。這兩者很像,從它們的名字就可以看出來,這倆都是獅身怪獸。

Sphinx 是(古埃及)獅身人面像,Manticore 是(傳說中的)人頭獅身龍(蝎)尾怪獸

Manticoresearch 從Sphinxsearch 繼承而來, 并做了性能優化. 因此,我選擇了Manticoresearch 來添加中日韓分詞。

首先從Manticoresearch的github倉庫pull最新的代碼來談價,后面我也會盡力與Manticoresearch的主分支保持同步。

算法實現

算法基于字典,具體是cedar的實現的雙數組trie。cedar是C++實現的高效雙數組trie,也是分詞字典的最佳之選。cedar的協議是GNU GPLv2, LGPLv2.1, and BSD;或者email聯系作者所要其它協議。

通過最小匹配(而非單字)來匹配字典和字符串,把字符串分割成最短(而非單字)的詞。如果遇到處理不了的歧義時,以單字做詞。這樣的目的是,保證搜索時能找到這些內容而不丟失。

稍微解釋一下,對于搜索引擎的分詞為什么這么做:

搜索引擎要能找到盡可能全內容:最徹底的方法是ngram=1,每個字單獨索引,這樣你搜索一個單字“榴”時,含有“榴蓮”的文本會被找到,但缺點就如前面所說。
搜索引擎要能找到盡可能相關的內容: 分詞就是比較好的方法,對詞進行索引,這樣你搜索一個單字“榴”時,含有“榴蓮”的文本就不會被找到。但分詞的粒度要小,比如“編程語言”這是一個詞組,如果把這個分成一個詞,你搜索“編程”時,就找不到只含“編程語言”的文本,同樣的,“上海市”要分成“上海”和“市”,等等。所以,“最小匹配”適用于搜索引擎。
編譯安裝

從github倉庫manticoresearch-seg獲取源碼,編譯方法跟Manticoresearch一樣,具體看官方文檔。

使用方法

  1. 準備詞表 把所有詞寫到一個txt文件,一行一個詞,如下所示:

words.txt

中文
中國語
???
  1. 創建字典 成功編譯代碼后,就會得到創建字典的可執行程序make_segdictionary. 然后執行命令:

./make_segdictionary words.txt words.dict
這樣就得到了字典文件: words.dict

  1. 配置索引 只需在配置文件的 index {...} 添加一行即可:
index {
    ...
    seg_dictionary = path-to-your-segmentation-words-dictionary
    ...
}

提醒: 分詞對批量索引和實時索引都起作用。

吐槽

添加分詞最初的想法是,我的代碼作為新增文件加入項目,只在原有文件個別處添加就好。這樣做分得比較清楚,后面對manticore官方倉庫提交代碼也比較清晰。于是就嘗試這樣做。

然而,Sphinx的代碼組織的真是有點亂,Manticore沿用Sphinx的代碼所以架構是一樣的。最大的一個cpp文件sphinx.cpp 竟然有3萬多行代碼,很多類的聲明直接放在這個.cpp 文件里面,而沒有放到頭文件sphinx.h里面。 因為我實現的分詞tokenizer必須要繼承它的類保持接口一致。嘗試著把cpp文件的一些聲明移到.h文件,結果是越移越多,要對原始文件做很大改動,甚至可能要重新架構源代碼。不是不可以重新架構,一來會很費時間,二來向官方提交代碼很難被接受,三是跟官方代碼保持同步就很費勁,最終還是在原來sphinx.cpp文件中添加分詞tokenizer: CSphTokenizer_UTF8Seg 。

當然,Sphinx的代碼的類的繼承關系比較清晰,繼承原來的tokenizer實現新的也不算費事,修改了4個源碼文件就添加好了分詞tokenizer。

文章首發于我的博客:www.yuanrenxue.com

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

通道| 峨眉山市| 苏州市| 云林县| 柏乡县| 阜南县| 青田县| 调兵山市| 宁津县| 华阴市| 榆中县| 那曲县| 青神县| 忻州市| 晴隆县| 融水| 白城市| 西乌| 安徽省| 建德市| 海兴县| 呼图壁县| 梁山县| 吴旗县| 沅江市| 台安县| 元氏县| 长乐市| 泉州市| 依兰县| 宁波市| 怀化市| 奉节县| 津市市| 灵寿县| 湟源县| 梁山县| 吉林市| 同德县| 分宜县| 海原县|