使用NLTK庫統計詞頻可以按照以下步驟:
1.導入NLTK庫和必要的模塊:
import nltk
from nltk import FreqDist
from nltk.tokenize import word_tokenize
2.加載文本數據并進行分詞:
text = "This is a sample text for calculating word frequency using NLTK library."
words = word_tokenize(text)
3.使用FreqDist類來統計詞頻并輸出結果:
freq_dist = FreqDist(words)
print(freq_dist.most_common())
這將輸出按照詞頻從高到低排列的詞及其頻數。如果需要查看特定詞的頻數,可以使用freq_dist['word']
來獲取該詞的頻數。
在實際應用中,可以使用NLTK庫來處理大量文本數據并進行詞頻統計分析,從而幫助理解文本內容和特征。