中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么 利用python實現詞頻統計功能

發布時間:2021-10-18 09:17:17 來源:億速云 閱讀:164 作者:柒染 欄目:開發技術

這篇文章給大家介紹怎么 利用python實現詞頻統計功能,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

功能要求

這是我們老師的作業 代碼中都有注釋 要求 詞頻統計軟件:

1)從文本中讀入數據:(文件的輸入輸出)

2)不區分大小寫,去除特殊字符。

3) 統計單詞 例如:about :10 并統計總共多少單詞

4)對單詞排序。出現次數

5)輸出詞頻最高的10個單詞和次數

6)把統計結果存入文本

方法如下

1.文件的讀取,區分大小寫,去除特殊字符

import re
 
def getword():
     # 讀取文件
     f=open('read.txt','r',encoding='utf-8')
     # 將大寫轉化成小寫
     word=f.read().lower()
     # 關閉文件
     f.close()
     #利用正則除去特殊字符   |\符+
     list=re.split('\s+|\,+|\.+|\!+|\:+|\?+|\;+|\(+|\)+|\-+|\_+|\=+|\++|\“+|\、+|\/+|\{+|\}+|\”+|\:+|\。+|\“+|\[+|\]+|\【+|\】+|\—+|\%+|\"+',word)
     # 遍歷列表 去除列表中的空格
     i = 0
     while i < len(list):
          if list[i] == '':
               list.remove(list[i])
               i -= 1
          i += 1
 
     # for a in list:
     #      if a == "":
     #         list.remove(a)
    #用for循環的話如果存在多個空字符串 其列表會隨時發生變化,導致無法正常刪除空字符串 所以在使用for…in循環遍歷列表時,最好不要對元素進行增刪操作
 
#  對于others'優化 如果最后一個字符是‘就將'其去掉
     for i in range(len(list)):
          l=list[i]
          if list[i][-1] == "'":
               list[i] = list[i][:-1]
     return list

2. 統計,排序

from getfilewords import getword
 
def statistics():
    dict={}  #定義一個空的字典,在后面的運算中逐步添加數據
    words=getword()
    for word in words: #遍歷整個列表
        if word in dict.keys():  #判斷當前單詞是否已經存在 dict.keys()是已存進字典中的單詞
            # 補充:keys() 方法用于返回字典中的所有鍵;
            # values() 方法用于返回字典中所有鍵對應的值;
            #詳情見Test1
            dict[word]=dict[word]+1  #在當前單詞的個數上加 1
        else:
            dict[word]=1  #當前單詞第一次出現時 會把單詞寫入dict字典里 格式為 ‘單詞'=1
#排序
    w_order=sorted(dict.items(),key=lambda x:x[1],reverse=True)
# print(dict.items())
# dict.items()返回的是列表
# 按字典集合中,每一個元組的第二個元素排列。
# sorted會對dict.items()這個list進行遍歷,把list中的每一個元素,也就是每一個tuple()當做x傳入匿名函數lambda x:x[1],函數返回值為x[1]
# reverse屬性True為降序 False為升序
    return w_order #返回排序后的列表

3.結果寫入文本

from WordStatistics import statistics
def writefile():
    w_order=statistics()
    f = open('result.txt', 'w',encoding='utf-8')
    print("文章單詞總個數:",+len(getword()),file=f)
    print("文章單詞總個數:", +len(getword()))
 
    # 寫入文件
    print("詞頻最高的10個單詞和次數",file=f)
    print("詞頻最高的10個單詞和次數")
 
    w_order10=w_order[:10]#將列表的前十位提取并且遍歷 輸出key(單詞)和values(次數)
    for key,values in w_order10:
        print(key,':',values,file=f)
        print(key, ':', values)
 
    #遍歷列表中的所有數據
    print("統計結果",file=f)
    for key,values in w_order:
        print(key,':',values,file=f)
    f.close()#關閉文件

4.程序入口

import os
 
from writefile import writefile
 
print("詞頻統計軟件")
print("正在統計中。。。")
print("統計成功,結果保存到result.txt")
writefile()
print("程序運行結束")
os.system("pause")

5.運行截圖 這是需要統計的文本

怎么 利用python實現詞頻統計功能

運行程序

怎么 利用python實現詞頻統計功能

運行結果

怎么 利用python實現詞頻統計功能

關于怎么 利用python實現詞頻統計功能就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

班玛县| 澎湖县| 舒城县| 轮台县| 壶关县| 莱阳市| 疏勒县| 浪卡子县| 咸宁市| 玉环县| 久治县| 郴州市| 林口县| 开平市| 布尔津县| 修水县| 霍林郭勒市| 达拉特旗| 息烽县| 新晃| 聊城市| 拉萨市| 宜兰县| 四平市| 邹平县| 阿城市| 永丰县| 和龙市| 永泰县| 泉州市| 福建省| 高阳县| 杭锦旗| 迁西县| 白沙| 宣汉县| 韶关市| 塔河县| 筠连县| 穆棱市| 民勤县|