您好,登錄后才能下訂單哦!
本篇內容介紹了“python怎么實現K-means算法”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
K-means 聚類算法
特點
對初始化敏感。初始點選擇的不同,可能會產生不同的聚類結果
最終會收斂。不管初始點如何選擇,最終都會收斂
算法思想
選擇K個點作為初始質心
repeat
將每個點指派到最近的質心,形成K個簇
重新計算每個簇的質心
until 簇不發生變化或達到最大迭代次數
代碼實現
實驗目的
根據下列成績單,將5名同學成績歸為A類、B類、C類。
限制:使用Kmeans算法實現,但不直接調用sklearn第三方庫的KMeans函數。
學生姓名 小測1 小測2 小測3 期末成績 項目答辯 成績
張三 12 15 13 28 24 ?
李四 7 11 10 19 21 ?
王五 12 14 11 27 23 ?
趙六 6 7 4 13 20 ?
劉七 13 14 13 27 25 ?
實驗步驟
1. 數據準備
將數據儲存為csv文件,格式如下
學生姓名,小測1,小測2,小測3,期末成績,項目答辯
張三,12,15,13,28,24
李四,7,11,10,19,21
王五,12,14,11,27,23
趙六,6,7,4,13,20
劉七,13,14,13,27,25
在從csv文件中讀取數據,并選取可用的數據(排除姓名列)
data = pd.read_csv('grade.csv')
new_data = data.iloc[:, 1:].values
2. KMeans算法實現
KMeans算法涉及兩點之間距離的計算,我們提前寫好一個函數:輸入兩個點的坐標,返回兩點之間的歐氏距離
def eucliDist(A, B):
return math.sqrt(sum([(a - b) ** 2 for (a, b) in zip(A, B)]))
函數k_means(c,data,max,label)實現KMeans算法:
a. 輸入:質心列表c,待聚類數據data,最大迭代次數max,標簽列表label
b. 計算data中的每個點分別到3個質心的歐式距離,得到一個矩陣metrix
metrix = [[eucliDist(a, b) for a in data] for b in c]
c. 比較矩陣metrix同一列的數值大小,將對應的學生劃歸距離較短的質心所屬的類,將標簽存儲為列表.
classifier = []
for (d, e, f) in zip(metrix[0], metrix[1], metrix[2]):
m = min(d, e, f)
if d == m:
classifier.append(label[0])
elif e == m:
classifier.append(label[1])
else:
classifier.append(label[2])
d. 重新計算質心的坐標,新質心的坐標=被劃歸同一類點的坐標的平均值
n1, n2 = 0, 0
c1 = [0, 0, 0, 0, 0]
c2 = c1
c3 = c1
for i in range(0, num):
if classifier[i] == label[0]:
c1 = [a + b for (a, b) in zip(c1, data[i])]
n1 = n1 + 1
elif classifier[i] == label[1]:
c2 = [a + b for (a, b) in zip(c2, data[i])]
n2 = n2 + 1
else:
c3 = [a + b for (a, b) in zip(c3, data[i])]
c1 = [a / n1 for a in c1]
c2 = [a / n2 for a in c2]
c3 = [a / (num - n1 - n2) for a in c3]
e. 重復b~d,直到質心坐標不再變化或達到最大迭代次數
f. 返回標簽列表
完整函數如下
def k_means(c, data, max,label):
# a. 輸入質心列表c,待聚類數據`data`,最大迭代次數max
max = max - 1
num = len(data)
# b. 計算data中的每個點分到k個質心的距離,得到一個矩陣,如
metrix = [[eucliDist(a, b) for a in data] for b in c]
print(metrix)
# c. 比較矩陣同一列的數值大小,將對應的學生劃歸距離較短的質心所屬的類,將標簽存儲為列表
classifier = []鄭州做人流手術費用 http://4g.zyfuke.com/
for (d, e, f) in zip(metrix[0], metrix[1], metrix[2]):
m = min(d, e, f)
if d == m:
classifier.append(label[0])
elif e == m:
classifier.append(label[1])
else:
classifier.append(label[2])
print(classifier)
# d. 重新計算質心的坐標,新質心的坐標=被劃歸同一類點的坐標的平均值
n1, n2 = 0, 0
c1 = [0, 0, 0, 0, 0]
c2 = c1
c3 = c1
for i in range(0, num):
if classifier[i] == label[0]:
c1 = [a + b for (a, b) in zip(c1, data[i])]
n1 = n1 + 1
elif classifier[i] == label[1]:
c2 = [a + b for (a, b) in zip(c2, data[i])]
n2 = n2 + 1
else:
c3 = [a + b for (a, b) in zip(c3, data[i])]
c1 = [a / n1 for a in c1]
c2 = [a / n2 for a in c2]
c3 = [a / (num - n1 - n2) for a in c3]
print(max)
print([c1,c2,c3])
# e. 重復b~d,直到質心坐標不再變化,或達到最大迭代次數
if c != [c1, c2, c3] and max > 0:
c = [c1, c2, c3]
print(c)
k_means(c, data, max, label)
return classifier
3. 設置參數,調用函數,得到結果
設置初始質心、標簽列表、最大迭代次數
# 選擇K個點作為初始質心
c = [[12, 15, 13, 28, 24], [ 7, 11, 10, 19, 21],[12, 14, 11, 27, 23]]
label = ['A', 'B', 'C']
max = 20
調用函數,整理結果
grade = k_means(c, new_data, max, label)
grade = pd.Series(grade, index=data['學生姓名'])
print(grade)
實驗結果
初始質心為[12, 15, 13, 28, 24], [ 7, 11, 10, 19, 21],[12, 14, 11, 27, 23]時,迭代2次即收斂,結果如下
學生姓名 小測1 小測2 小測3 期末成績 項目答辯 成績
張三 12 15 13 28 24 A
李四 7 11 10 19 21 B
王五 12 14 11 27 23 C
趙六 6 7 4 13 20 B
劉七 13 14 13 27 25 A
“python怎么實現K-means算法”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。