中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python英文文本分詞(無空格)模塊wordninja的使用實例

發布時間:2020-08-31 23:40:00 來源:腳本之家 閱讀:353 作者:Together_CZ 欄目:開發技術

在NLP中,數據清洗與分詞往往是很多工作開始的第一步,大多數工作中只有中文語料數據需要進行分詞,現有的分詞工具也已經有了很多了,這里就不再多介紹了。英文語料由于其本身存在空格符所以無需跟中文語料同樣處理,如果英文數據中沒有了空格,那么應該怎么處理呢?

今天介紹一個工具就是專門針對上述這種情況進行處理的,這個工具叫做:wordninja,地址在這里。

下面簡單以實例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

結果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

從簡單的結果上來看,效果還是不錯的,之后在實際的使用中會繼續評估。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對億速云的支持。如果你想了解更多相關內容請查看下面相關鏈接

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

镇坪县| 塔城市| 开平市| 清水河县| 高青县| 青州市| 商丘市| 灵璧县| 孟村| 新密市| 大荔县| 荆州市| 满洲里市| 黄龙县| 肥东县| 九龙坡区| 漳平市| 凤山县| 高邑县| 石楼县| 连南| 屏边| 涞水县| 阿拉善右旗| 五河县| 虎林市| 佛冈县| 内黄县| 叶城县| 镇沅| 吴江市| 盱眙县| 额敏县| 漳州市| 威信县| 肇庆市| 阳高县| 许昌市| 乌审旗| 兴安县| 大关县|