中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python數據標準化的方法

發布時間:2021-08-16 09:28:23 來源:億速云 閱讀:500 作者:chen 欄目:開發技術

這篇文章主要講解了“Python數據標準化的方法”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Python數據標準化的方法”吧!

說明

1、將原始數據轉換為均值為0,標準差在1范圍內。

2、對標準化而言:如果出現異常點,由于有一定數據量,少量異常點對平均值的影響不大,因此方差變化不大。

實例

def stand_demo():
    """
    標準化
    :return:
    """
# 1. 獲取數據
    data = pd.read_csv('dating.txt')
    data = data.iloc[:, :3]
    print('data:\n', data)
 
# 2.實例化一個轉換器類
    transfer = StandardScaler()

# 3.調用fit_transform()
    data_new = transfer.fit_transform(data)
    print('data_new:\n', data_new)
    return None

知識點擴充:

幾種標準化方法:

歸一化Max-Min

min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x',其公式為:

新數據=(原數據-最小值)/(最大值-最小值)

這種方法能使數據歸一化到一個區域內,同時不改變原來的數據結構。

實現中心化Z-Score

這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x'。

z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。

新數據=(原數據-均值)/標準差

這種方法適合大多數類型數據,也是很多工具的默認標準化方法。標準化之后的數據是以0為均值,方差為以的正太分布。但是Z-Score方法是一種中心化方法,會改變原有數據的分布結構,不適合用于對稀疏數據做處理。

很多時候數據集會存在稀疏特征,表現為標準差小,很多元素值為0,最常見的稀疏數據集是用來做協同過濾的數據集,絕大部分數據都是0。對稀疏數據做標準化,不能采用中心化的方式,否則會破壞稀疏數據的結構。

用于稀疏數據的MaxAbs

最大值絕對值標準化(MaxAbs)即根據最大值的絕對值進行標準化,假設原轉換的數據為x,新數據為x',那么x'=x/|max|,其中max為x鎖在列的最大值。

該方法的數據區間為[-1, 1],也不破壞原數據結構的特點,因此也可以用于稀疏數據,一些稀疏矩陣。

針對離群點的RobustScaler

有些時候,數據集中存在離群點,用Z-Score進行標準化,但是結果不理想,因為離群點在標準化后喪失了利群特性。

RobustScaler針對離群點做標準化處理,該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。

感謝各位的閱讀,以上就是“Python數據標準化的方法”的內容了,經過本文的學習后,相信大家對Python數據標準化的方法這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

舟山市| 文成县| 黔东| 稻城县| 玛纳斯县| 司法| 象州县| 宝丰县| 兴安盟| 宁陕县| 白银市| 甘德县| 龙游县| 乌鲁木齐县| 泰顺县| 苍溪县| 黄骅市| 建宁县| 郴州市| 古交市| 嘉兴市| 永州市| 河源市| 昌都县| 观塘区| 清徐县| 柞水县| 琼结县| 上蔡县| 多伦县| 无为县| 临城县| 武乡县| 漾濞| 威信县| 陆河县| 淄博市| 广宗县| 灵台县| 萍乡市| 宜宾县|