怎么使用NLTK庫構建文本分類器

使用NLTK庫構建文本分類器的步驟如下：

導入NLTK庫和所需的數據集：

import nltk
from nltk.corpus import movie_reviews

準備數據集：

documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

對文本數據進行預處理，如分詞、去除停用詞、詞干提取等：

all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features
    
featuresets = [(document_features(d), c) for (d,c) in documents]

劃分數據集為訓練集和測試集：

train_set, test_set = featuresets[100:], featuresets[:100]

構建分類器模型：

classifier = nltk.NaiveBayesClassifier.train(train_set)

對測試集進行預測并評估分類器性能：

print(nltk.classify.accuracy(classifier, test_set))
classifier.show_most_informative_features(5)

通過以上步驟，您就可以使用NLTK庫構建一個簡單的文本分類器并對其進行評估。您還可以根據具體的需求和數據集調整參數和模型，在實際應用中不斷優化文本分類器的性能。

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

最新問答

相關標簽