中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python 機器學習之實現樸素貝葉斯算法的示例

發布時間:2020-10-04 21:20:15 來源:腳本之家 閱讀:138 作者:鄙人劍人肖 欄目:開發技術

特點

  • 這是分類算法貝葉斯算法的較為簡單的一種,整個貝葉斯分類算法的核心就是在求解貝葉斯方程P(y|x)=[P(x|y)P(y)]/P(x)
  • 而樸素貝葉斯算法就是在犧牲一定準確率的情況下強制特征x滿足獨立條件,求解P(x|y)就更為方便了
  • 但基本上現實生活中,沒有任何關系的兩個特征幾乎是不存在的,故樸素貝葉斯不適合那些關系密切的特征
from collections import defaultdict
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from loguru import logger


class NaiveBayesScratch():
  """樸素貝葉斯算法Scratch實現"""
  def __init__(self):
    # 存儲先驗概率 P(Y=ck)
    self._prior_prob = defaultdict(float)
    # 存儲似然概率 P(X|Y=ck)
    self._likelihood = defaultdict(defaultdict)
    # 存儲每個類別的樣本在訓練集中出現次數
    self._ck_counter = defaultdict(float)
    # 存儲每一個特征可能取值的個數
    self._Sj = defaultdict(float)

  def fit(self, X, y):
    """
    模型訓練,參數估計使用貝葉斯估計
    X:
      訓練集,每一行表示一個樣本,每一列表示一個特征或屬性
    y:
      訓練集標簽
    """
    n_sample, n_feature = X.shape
    # 計算每個類別可能的取值以及每個類別樣本個數
    ck, num_ck = np.unique(y, return_counts=True)
    self._ck_counter = dict(zip(ck, num_ck))
    for label, num_label in self._ck_counter.items():
      # 計算先驗概率,做了拉普拉斯平滑處理,即計算P(y)
      self._prior_prob[label] = (num_label + 1) / (n_sample + ck.shape[0])

    # 記錄每個類別樣本對應的索引
    ck_idx = []
    for label in ck:
      label_idx = np.squeeze(np.argwhere(y == label))
      ck_idx.append(label_idx)

    # 遍歷每個類別
    for label, idx in zip(ck, ck_idx):
      xdata = X[idx]
      # 記錄該類別所有特征對應的概率
      label_likelihood = defaultdict(defaultdict)
      # 遍歷每個特征
      for i in range(n_feature):
        # 記錄該特征每個取值對應的概率
        feature_val_prob = defaultdict(float)
        # 獲取該列特征可能的取值和每個取值出現的次數
        feature_val, feature_cnt = np.unique(xdata[:, i], return_counts=True)
        self._Sj[i] = feature_val.shape[0]
        feature_counter = dict(zip(feature_val, feature_cnt))
        for fea_val, cnt in feature_counter.items():
          # 計算該列特征每個取值的概率,做了拉普拉斯平滑,即為了計算P(x|y)
          feature_val_prob[fea_val] = (cnt + 1) / (self._ck_counter[label] + self._Sj[i])
        label_likelihood[i] = feature_val_prob
      self._likelihood[label] = label_likelihood

  def predict(self, x):
    """
    輸入樣本,輸出其類別,本質上是計算后驗概率
    **注意計算后驗概率的時候對概率取對數**,概率連乘可能導致浮點數下溢,取對數將連乘轉化為求和
    """
    # 保存分類到每個類別的后驗概率,即計算P(y|x)
    post_prob = defaultdict(float)
    # 遍歷每個類別計算后驗概率
    for label, label_likelihood in self._likelihood.items():
      prob = np.log(self._prior_prob[label])
      # 遍歷樣本每一維特征
      for i, fea_val in enumerate(x):
        feature_val_prob = label_likelihood[i]
        # 如果該特征值出現在訓練集中則直接獲取概率
        if fea_val in feature_val_prob:
          prob += np.log(feature_val_prob[fea_val])
        else:
          # 如果該特征沒有出現在訓練集中則采用拉普拉斯平滑計算概率
          laplace_prob = 1 / (self._ck_counter[label] + self._Sj[i])
          prob += np.log(laplace_prob)
      post_prob[label] = prob
    prob_list = list(post_prob.items())
    prob_list.sort(key=lambda v: v[1], reverse=True)
    # 返回后驗概率最大的類別作為預測類別
    return prob_list[0][0]


def main():
  X, y = load_iris(return_X_y=True)
  xtrain, xtest, ytrain, ytest = train_test_split(X, y, train_size=0.8, shuffle=True)

  model = NaiveBayesScratch()
  model.fit(xtrain, ytrain)

  n_test = xtest.shape[0]
  n_right = 0
  for i in range(n_test):
    y_pred = model.predict(xtest[i])
    if y_pred == ytest[i]:
      n_right += 1
    else:
      logger.info("該樣本真實標簽為:{},但是Scratch模型預測標簽為:{}".format(ytest[i], y_pred))
  logger.info("Scratch模型在測試集上的準確率為:{}%".format(n_right * 100 / n_test))

if __name__ == "__main__":
  main()

以上就是python 機器學習之實現樸素貝葉斯算法的示例的詳細內容,更多關于python實現樸素貝葉斯算法的資料請關注億速云其它相關文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

揭西县| 建瓯市| 通渭县| 岳普湖县| 安图县| 夏津县| 平南县| 建昌县| 扶绥县| 临泽县| 玛曲县| 山阳县| 四会市| 恭城| 阳山县| 建始县| 彭水| 平谷区| 白沙| 昆山市| 虎林市| 马山县| 呼和浩特市| 绥棱县| 万宁市| 西乡县| 乐都县| 交口县| 涟水县| 嘉黎县| 云龙县| 镇沅| 天水市| 郓城县| 建平县| 丹阳市| 汾阳市| 秦安县| 灵宝市| 天长市| 宕昌县|