中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何使用Python實現的統計文章單詞次數功能

發布時間:2021-04-07 09:54:23 來源:億速云 閱讀:163 作者:小新 欄目:開發技術

小編給大家分享一下如何使用Python實現的統計文章單詞次數功能,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

題目是這樣的:你有一個目錄,放了你一個月的日記,都是 txt,為了避免分詞的問題,假設內容都是英文,請統計出你認為每篇日記最重要的詞。

其實就是統計一篇文章出現最多的單詞,但是要去除那些常見的連詞、介詞和謂語動詞等,代碼:

#coding=utf-8
import collections
import re
import os
useless_words=('the','a','an','and','by','of','in','on','is','to')
def get_important_word(file):
  f=open(file)
  word_counter=collections.Counter()
  for line in f:
    words=re.findall('\w+',line.lower())
    word_counter.update(words)
  f.close()
  most_important_word=word_counter.most_common(1)[0][0]
  count=2
  while(most_important_word in useless_words):
    most_important_word=word_counter.most_common(count)[count-1][0]
    count+=1
  num=word_counter.most_common(count)[count-1][1]
  print 'the most important word in %s is %s,it appears %d times'%(file,most_important_word,num)
if __name__=='__main__':
  filepath='.'
  for dirpath,dirname,dirfiles in os.walk(filepath):
    for file in dirfiles:
      if os.path.splitext(file)[1]=='.txt':
        abspath=os.path.join(dirpath,file)
        if os.path.isfile(abspath):
          get_important_word(abspath)

學習筆記:

collections模塊,是python內建的模塊,提供了許多有用的集合類。我們這里用到了Counter類和其中的most_common()方法

以上是“如何使用Python實現的統計文章單詞次數功能”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

香格里拉县| 万安县| 图木舒克市| 隆昌县| 昂仁县| 新竹县| 汤原县| 土默特左旗| 连城县| 尚义县| 泽普县| 安龙县| 电白县| 溧阳市| 武功县| 罗江县| 综艺| 平乐县| 阳泉市| 定结县| 土默特右旗| 革吉县| 密云县| 余江县| 桂阳县| 尼勒克县| 苏尼特左旗| 襄樊市| 株洲县| 随州市| 黔江区| 古丈县| 宿迁市| 永吉县| 抚宁县| 翁牛特旗| 张家川| 荔波县| 仁寿县| 武宁县| 陇南市|