Sklearn調優之網格搜索與隨機搜索原理是什么

發布時間：2023-02-13 09:29:06 來源：億速云閱讀：139 作者：iii 欄目：開發技術

這篇“Sklearn調優之網格搜索與隨機搜索原理是什么”文章的知識點大部分人都不太理解，所以小編給大家總結了以下內容，內容詳細，步驟清晰，具有一定的借鑒價值，希望大家閱讀完這篇文章能有所收獲，下面我們一起來看看這篇“Sklearn調優之網格搜索與隨機搜索原理是什么”文章吧。

前言

超參調優是“模型調優”（Model Tuning)階段最主要的工作，是直接影響模型最終效果的關鍵步驟，然而，超參調優本身卻是一項非常低級且枯燥的工作，因為它的策略就是：不斷變換參數值，一輪一輪地去“試”，直到找出結果最好的一組參數。顯然，這個過程是可以通過編程封裝成自動化的工作，而不是靠蠻力手動去一遍一遍的測試。為此，Sklearn提供了多種（自動化）超參調優方法（官方文檔），其中網格搜索（Grid Search）和隨機搜索（Randomized Search）是最基礎也是最常用的兩個：

方法名稱	對應類/函數	官方文檔
網格搜索（Grid Search）	sklearn.model_selection.GridSearchCV	文檔鏈接
隨機搜索（Randomized Search）	sklearn.model_selection.RandomizedSearchCV	文檔鏈接

對應類/函數的后綴CV是Cross-Validation的意思，因為它們每嘗試一種超參組合時，都會使用Cross-Validation進行效果評估，所以調用它們時也都需要顯式指定cv參數，即：驗證的輪次（K-Fold的份數）。

網格搜索（Grid Search）

網格搜索（Grid Search）的邏輯其實非常簡單，就是由開發者針對每個超參設定多個值去嘗試，找出效果最好的那個，由于超參會有很多個，而每一個超參又有多個嘗試值，所以就變成了一個“排列組合”問題。例如我們想針對兩個超參進行調優，第一個超參設置了2個嘗試值，第二個超參設置了3個嘗試值，則超參設置總共會有 2 × 3 = 6 種組合，理論上模型要被訓練6次，如果再加上交叉驗證的輪次參數cv，假設cv=3，則總得的訓練次數將變為：6 × 3 = 18 次。以下是《Hands-On ML, 2nd Edition》一書中提供的GridSearchCV示例代碼：

from sklearn.model_selection import GridSearchCV
param_grid = [
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
]
forest_reg = RandomForestRegressor()
grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                           scoring='neg_mean_squared_error',
                           return_train_score=True)
grid_search.fit(housing_prepared, housing_labels)

在這份示例代碼中，作者提供針對bootstrap、n_estimators和max_features三個超參，給出了兩套參數設定：

第一套：{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]} 總計：3 × 4 = 12 種組合

第二套：{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]} 總計：1 × 2 × 3 = 6 種組合

合在一起一共：12 + 6 = 18 種組合，加上交叉驗證設定cv=5，所以最終將訓練 18 × 5 = 90 次！這里我們可以看到param_grid是一個list，里面每一個元素是一個dict，一個dict就代表了一套參數設定，每套參數設定根據賦值情況又會產生多種參數組合。其實上面兩套組合也可以用下面的一套設定覆蓋：

param_grid = [
    {'bootstrap': [True, False], 'n_estimators': [3, 10, 30], 'max_features': [2, 3, 4, 6, 8]}
]

但在此情況下，總的訓練次數將會變為：(2 × 3 × 5) × 5 = 150 次。由此可見，Sklearn這種允許設定多套參數的設計（即一個list下可配置多個dict）還是有可取之處，會方便開發人員更具經驗設定最有希望的取值集合，減少訓練次數。

隨機搜索（Randomized Search）

網格搜索適用于參數組合數比較少的情況，當參數組合大到一定程度后，模型訓練所占用的資源和持續時間將會超用戶的可接受范圍，此時往往就要改用隨機搜索（Randomized Search）了。隨機搜索的工作原理和網格搜索其實差不多，都是“暴力嘗試”，不同之處在于：網格搜索的參數取值集合是用戶設定的，而隨機搜索的參數取值則是指定好區間（最大值和最小值）由隨機數發生器隨機生成的，而想要生成多少種組合是可以設置的。以下是《Hands-On ML, 2nd Edition》一書中提供的RandomizedSearchCV示例代碼：

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
param_distribs = {
        'n_estimators': randint(low=1, high=200),
        'max_features': randint(low=1, high=8),
    }
forest_reg = RandomForestRegressor(random_state=42)
rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs,
                                n_iter=10, cv=5, scoring='neg_mean_squared_error', random_state=42)
rnd_search.fit(housing_prepared, housing_labels)

在這份代碼中，作者針對n_estimators和max_features兩個超參分別設定了 1 ~ 200 和 1 ~ 8 的取值區間，然后通過設定參數n_iter=10將參數組合數設定為10，當然，疊加上交叉驗證cv=5后，實際的訓練就是 5 × 10 = 50 次了。

以上就是關于“Sklearn調優之網格搜索與隨機搜索原理是什么”這篇文章的內容，相信大家都有了一定的了解，希望小編分享的內容對大家有幫助，若想了解更多相關的知識內容，請關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Sklearn調優之網格搜索與隨機搜索原理是什么

前言

網格搜索（Grid Search）

隨機搜索（Randomized Search）

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Sklearn調優之網格搜索與隨機搜索原理是什么

前言

網格搜索（Grid Search）

隨機搜索（Randomized Search）

猜你喜歡

最新資訊

相關推薦

相關標簽