在Python中,你可以使用許多庫和工具來進行文本數據分析。以下是一些常用的方法:
open()
函數來讀取文本文件,并將其存儲為字符串或列表等數據結構。with open('data.txt', 'r') as file:
text = file.read()
import nltk
tokens = nltk.word_tokenize(text)
from nltk.corpus import stopwords
import string
stopwords = set(stopwords.words('english'))
clean_tokens = [token for token in tokens if token.lower() not in stopwords and token not in string.punctuation and not token.isdigit()]
collections
庫中的Counter
類來計算每個單詞的出現次數。from collections import Counter
word_freq = Counter(clean_tokens)
import matplotlib.pyplot as plt
plt.bar(word_freq.keys(), word_freq.values())
plt.show()
這只是文本數據分析的基本步驟和示例。根據具體任務和需求,你可能還需要使用其他技術和庫來進行更深入的分析,如TF-IDF、情感分析、主題建模等。