python怎么實現K-means算法

發布時間：2021-08-17 20:37:51 來源：億速云閱讀：131 作者：chen 欄目：編程語言

本篇內容介紹了“python怎么實現K-means算法”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

　　K-means 聚類算法

　　特點

　　對初始化敏感。初始點選擇的不同，可能會產生不同的聚類結果

　　最終會收斂。不管初始點如何選擇，最終都會收斂

　　算法思想

　　選擇K個點作為初始質心

　　repeat

　　將每個點指派到最近的質心，形成K個簇

　　重新計算每個簇的質心

　　until 簇不發生變化或達到最大迭代次數

　　代碼實現

　　實驗目的

　　根據下列成績單，將5名同學成績歸為A類、B類、C類。

　　限制：使用Kmeans算法實現，但不直接調用sklearn第三方庫的KMeans函數。

　　學生姓名　　小測1　　小測2　　小測3　　期末成績　　項目答辯　　成績

　　張三　　12　　15　　13　　28　　24　　?

　　李四　　7　　11　　10　　19　　21　　?

　　王五　　12　　14　　11　　27　　23　　?

　　趙六　　6　　7　　4　　13　　20　　?

　　劉七　　13　　14　　13　　27　　25　　?

　　實驗步驟

　　1. 數據準備

　　將數據儲存為csv文件，格式如下

　　學生姓名,小測1,小測2,小測3,期末成績,項目答辯

　　張三,12,15,13,28,24

　　李四,7,11,10,19,21

　　王五,12,14,11,27,23

　　趙六,6,7,4,13,20

　　劉七,13,14,13,27,25

　　在從csv文件中讀取數據，并選取可用的數據(排除姓名列)

　　data = pd.read_csv('grade.csv')

　　new_data = data.iloc[:, 1:].values

　　2. KMeans算法實現

　　KMeans算法涉及兩點之間距離的計算，我們提前寫好一個函數：輸入兩個點的坐標，返回兩點之間的歐氏距離

　　def eucliDist(A, B):

　　return math.sqrt(sum([(a - b) ** 2 for (a, b) in zip(A, B)]))

　　函數k_means(c,data,max,label)實現KMeans算法：

　　a. 輸入：質心列表c，待聚類數據data，最大迭代次數max，標簽列表label

　　b. 計算data中的每個點分別到3個質心的歐式距離，得到一個矩陣metrix

　　metrix = [[eucliDist(a, b) for a in data] for b in c]

　　c. 比較矩陣metrix同一列的數值大小，將對應的學生劃歸距離較短的質心所屬的類，將標簽存儲為列表.

　　classifier = []

　　for (d, e, f) in zip(metrix[0], metrix[1], metrix[2]):

　　m = min(d, e, f)

　　if d == m:

　　classifier.append(label[0])

　　elif e == m:

　　classifier.append(label[1])

　　else:

　　classifier.append(label[2])

　　d. 重新計算質心的坐標，新質心的坐標=被劃歸同一類點的坐標的平均值

　　n1, n2 = 0, 0

　　c1 = [0, 0, 0, 0, 0]

　　c2 = c1

　　c3 = c1

　　for i in range(0, num):

　　if classifier[i] == label[0]:

　　c1 = [a + b for (a, b) in zip(c1, data[i])]

　　n1 = n1 + 1

　　elif classifier[i] == label[1]:

　　c2 = [a + b for (a, b) in zip(c2, data[i])]

　　n2 = n2 + 1

　　else:

　　c3 = [a + b for (a, b) in zip(c3, data[i])]

　　c1 = [a / n1 for a in c1]

　　c2 = [a / n2 for a in c2]

　　c3 = [a / (num - n1 - n2) for a in c3]

　　e. 重復b~d，直到質心坐標不再變化或達到最大迭代次數

　　f. 返回標簽列表

　　完整函數如下

　　def k_means(c, data, max,label):

　　# a. 輸入質心列表c，待聚類數據`data`，最大迭代次數max

　　max = max - 1

　　num = len(data)

　　# b. 計算data中的每個點分到k個質心的距離，得到一個矩陣，如

　　metrix = [[eucliDist(a, b) for a in data] for b in c]

　　print(metrix)

　　# c. 比較矩陣同一列的數值大小，將對應的學生劃歸距離較短的質心所屬的類，將標簽存儲為列表

　　classifier = []鄭州做人流手術費用 http://4g.zyfuke.com/

　　for (d, e, f) in zip(metrix[0], metrix[1], metrix[2]):

　　m = min(d, e, f)

　　if d == m:

　　classifier.append(label[0])

　　elif e == m:

　　classifier.append(label[1])

　　else:

　　classifier.append(label[2])

　　print(classifier)

　　# d. 重新計算質心的坐標，新質心的坐標=被劃歸同一類點的坐標的平均值

　　n1, n2 = 0, 0

　　c1 = [0, 0, 0, 0, 0]

　　c2 = c1

　　c3 = c1

　　for i in range(0, num):

　　if classifier[i] == label[0]:

　　c1 = [a + b for (a, b) in zip(c1, data[i])]

　　n1 = n1 + 1

　　elif classifier[i] == label[1]:

　　c2 = [a + b for (a, b) in zip(c2, data[i])]

　　n2 = n2 + 1

　　else:

　　c3 = [a + b for (a, b) in zip(c3, data[i])]

　　c1 = [a / n1 for a in c1]

　　c2 = [a / n2 for a in c2]

　　c3 = [a / (num - n1 - n2) for a in c3]

　　print(max)

　　print([c1,c2,c3])

　　# e. 重復b~d，直到質心坐標不再變化,或達到最大迭代次數

　　if c != [c1, c2, c3] and max > 0:

　　c = [c1, c2, c3]

　　print(c)

　　k_means(c, data, max, label)

　　return classifier

　　3. 設置參數，調用函數，得到結果

　　設置初始質心、標簽列表、最大迭代次數

　　# 選擇K個點作為初始質心

　　c = [[12, 15, 13, 28, 24], [ 7, 11, 10, 19, 21],[12, 14, 11, 27, 23]]

　　label = ['A', 'B', 'C']

　　max = 20

　　調用函數，整理結果

　　grade = k_means(c, new_data, max, label)

　　grade = pd.Series(grade, index=data['學生姓名'])

　　print(grade)

　　實驗結果

　　初始質心為[12, 15, 13, 28, 24], [ 7, 11, 10, 19, 21],[12, 14, 11, 27, 23]時，迭代2次即收斂，結果如下

　　學生姓名　　小測1　　小測2　　小測3　　期末成績　　項目答辯　　成績

　　張三　　12　　15　　13　　28　　24　　A

　　李四　　7　　11　　10　　19　　21　　B

　　王五　　12　　14　　11　　27　　23　　C

　　趙六　　6　　7　　4　　13　　20　　B

　　劉七　　13　　14　　13　　27　　25　　A

“python怎么實現K-means算法”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python怎么實現K-means算法

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python怎么實現K-means算法

猜你喜歡

最新資訊

相關推薦

相關標簽