在Scikit-learn中,特征提取通常是通過特征提取器(如CountVectorizer、TfidfVectorizer等)來實現的。下面是一個簡單的使用CountVectorizer來提取文本特征的示例:
from sklearn.feature_extraction.text import CountVectorizer
# 創建CountVectorizer對象
count_vectorizer = CountVectorizer()
# 在文本數據上擬合并轉換特征
X = count_vectorizer.fit_transform(['I love Scikit-learn', 'Scikit-learn is great'])
# 輸出特征矩陣
print(X.toarray())
# 輸出特征對應的單詞
print(count_vectorizer.get_feature_names())
在上面的示例中,首先創建了一個CountVectorizer對象,然后對文本數據進行擬合并轉換,最后輸出了特征矩陣和特征對應的單詞。通過這種方式,可以將文本數據轉換為特征矩陣,以便進行機器學習模型的訓練。