在SciPy中實現自然語言處理任務通常需要使用一些其他庫來完成。常用的庫包括NLTK(Natural Language Toolkit)和spaCy。下面是一個簡單的示例,演示如何使用NLTK來對文本進行詞頻統計:
首先安裝NLTK庫:pip install nltk
導入NLTK庫并下載必要的數據:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from collections import Counter
text = "This is a sample text for natural language processing tasks."
tokens = word_tokenize(text.lower()) # 將文本轉換為小寫并分詞
filtered_tokens = [token for token in tokens if token.isalpha() and token not in stopwords.words('english')] # 過濾掉停用詞和非字母字符
word_freq = Counter(filtered_tokens) # 統計詞頻
print(word_freq)
通過以上步驟,可以實現簡單的文本處理和詞頻統計任務。對于更復雜的自然語言處理任務,可以使用更多功能強大的庫如spaCy來處理。