機器學習的K-NN算法是怎么工作的

發布時間：2021-12-27 15:03:00 來源：億速云閱讀：170 作者：iii 欄目：大數據

這篇文章主要講解了“機器學習的K-NN算法是怎么工作的”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“機器學習的K-NN算法是怎么工作的”吧！

0 1

k-NN算法

K最近鄰(k-Nearest Neighbor，KNN)是數據挖掘分類技術中最簡單的方法之一，是機器學習中唯一一個不需要訓練過程的算法。K最近鄰，即每個樣本都可以用它最近的k個鄰居代表。核心思想是如果兩個樣本的特征足夠相似，它們就有更高的概率屬于同一個類別，并具有這個類別上樣本的特性。比較通俗的說法就是“近朱者赤近墨者黑”。

優點是簡單，易于理解，易于實現，無需估計參數，無需訓練；適合對稀有事件進行分類；特別適合于多分類問題， kNN比SVM的表現要好。

缺點是算法復雜度高，每一個待分類的樣本都要計算它到全體已知樣本的距離，效率較低；預測結果不具有可解釋性，無法給出像決策樹那樣的規則；

0 2

KNN如何工作？

kNN算法的過程如下：

1、選擇一種距離計算方式, 通過數據所有的特征計算新數據與已知類別數據集中數據點的距離;

2、按照距離遞增次序進行排序, 選取與當前距離最小的 k 個點;

3、對于離散分類, 返回 k 個點出現頻率最多的類別作為預測分類; 對于回歸, 返回 k 個點的加權值作為預測值。

機器學習的K-NN算法是怎么工作的

如上圖中，對灰色圓點進行分類，劃分其屬于綠、黃、紅何種類型。首先需要計算灰點和近鄰電之間的距離，確定其k近鄰點，使用周邊數量最多的最近鄰點類標簽確定對象類標簽，本例中，灰色圓點被劃分為黃色類別。

0 3

幾種距離

距離越近，表示越相似。距離的選擇有很多，通常情況下，對于連續變量, 選取歐氏距離作為距離度量; 對于文本分類這種非連續變量, 選取漢明距離來作為度量. 通常如果運用一些特殊的算法來作為計算度量, 可以顯著提高 K 近鄰算法的分類精度，如運用大邊緣最近鄰法或者近鄰成分分析法。

歐氏距離

機器學習的K-NN算法是怎么工作的

切比雪夫距離

機器學習的K-NN算法是怎么工作的

馬氏距離

機器學習的K-NN算法是怎么工作的

夾角余弦距離

機器學習的K-NN算法是怎么工作的

切比雪夫距離

機器學習的K-NN算法是怎么工作的

曼哈頓(Manhattan)距離

機器學習的K-NN算法是怎么工作的

0 4
K值

k值是可以直接影響預測結果的自定義常數。k值選擇太小，鄰居就會過少，易受噪聲數據干擾，導致分類精度較低。k值選擇太大，易蔣不相似數據包含進來，造成噪聲增加，分類效果不佳。比較常用的是使用交叉驗證誤差統計選擇法，比較不同K值時的交叉驗證平均誤差率, 選擇誤差率最小的那個K值. 例如選擇K=1, 2, 3, ... , 對每個K = i 做100次交叉驗證, 計算出平均誤差, 通過比較選出誤差最小的那個。

感謝各位的閱讀，以上就是“機器學習的K-NN算法是怎么工作的”的內容了，經過本文的學習后，相信大家對機器學習的K-NN算法是怎么工作的這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

機器學習的K-NN算法是怎么工作的

0 4
K值

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

機器學習的K-NN算法是怎么工作的

0 4 K值

猜你喜歡

最新資訊

相關推薦

相關標簽

0 4
K值