您好,登錄后才能下訂單哦!
數據歸一化:
數據的標準化是將數據按比例縮放,使之落入一個小的特定區間,去除數據的單位限制,將其轉化為無量綱的純數值,便于不同單位或量級的指標能夠進行比較和加權。
為什么要做歸一化:
1)加快梯度下降求最優解的速度
如果兩個特征的區間相差非常大,其所形成的等高線非常尖,很有可能走“之字型”路線(垂直等高線走),從而導致需要迭代很多次才能收斂。
2)有可能提高精度
一些分類器需要計算樣本之間的距離,如果一個特征值域范圍非常大,那么距離計算就主要取決于這個特征,從而與實際情況相悖(比如這時實際情況是值域范圍小的特征更重要)。
歸一化類型
1)線性歸一化
這種歸一化比較適用在數值比較集中的情況,缺陷就是如果max和min不穩定,很容易使得歸一化結果不穩定,使得后續的效果不穩定,實際使用中可以用經驗常量來代替max和min。
2)標準差標準化
經過處理的數據符合標準正態分布,即均值為0,標準差為1。
3)非線性歸一化
經常用在數據分化較大的場景,有些數值大,有些很小。通過一些數學函數,將原始值進行映射。該方法包括log、指數、反正切等。需要根據數據分布的情況,決定非線性函數的曲線。
log函數:x = lg(x)/lg(max)
反正切函數:x = atan(x)*2/pi
Python實現
線性歸一化
定義數組:x = numpy.array(x)
獲取二維數組列方向的最大值:x.max(axis = 0)
獲取二維數組列方向的最小值:x.min(axis = 0)
對二維數組進行線性歸一化:
def max_min_normalization(data_value, data_col_max_values, data_col_min_values): """ Data normalization using max value and min value Args: data_value: The data to be normalized data_col_max_values: The maximum value of data's columns data_col_min_values: The minimum value of data's columns """ data_shape = data_value.shape data_rows = data_shape[0] data_cols = data_shape[1] for i in xrange(0, data_rows, 1): for j in xrange(0, data_cols, 1): data_value[i][j] = \ (data_value[i][j] - data_col_min_values[j]) / \ (data_col_max_values[j] - data_col_min_values[j])
標準差歸一化
定義數組:x = numpy.array(x)
獲取二維數組列方向的均值:x.mean(axis = 0)
獲取二維數組列方向的標準差:x.std(axis = 0)
對二維數組進行標準差歸一化:
def standard_deviation_normalization(data_value, data_col_means, data_col_standard_deviation): """ Data normalization using standard deviation Args: data_value: The data to be normalized data_col_means: The means of data's columns data_col_standard_deviation: The variance of data's columns """ data_shape = data_value.shape data_rows = data_shape[0] data_cols = data_shape[1] for i in xrange(0, data_rows, 1): for j in xrange(0, data_cols, 1): data_value[i][j] = \ (data_value[i][j] - data_col_means[j]) / \ data_col_standard_deviation[j]
非線性歸一化(以lg為例)
定義數組:x = numpy.array(x)
獲取二維數組列方向的最大值:x.max(axis=0)
獲取二維數組每個元素的lg值:numpy.log10(x)
獲取二維數組列方向的最大值的lg值:numpy.log10(x.max(axis=0))
對二維數組使用lg進行非線性歸一化:
def nonlinearity_normalization_lg(data_value_after_lg, data_col_max_values_after_lg): """ Data normalization using lg Args: data_value_after_lg: The data to be normalized data_col_max_values_after_lg: The maximum value of data's columns """ data_shape = data_value_after_lg.shape data_rows = data_shape[0] data_cols = data_shape[1] for i in xrange(0, data_rows, 1): for j in xrange(0, data_cols, 1): data_value_after_lg[i][j] = \ data_value_after_lg[i][j] / data_col_max_values_after_lg[j]
以上這篇基于數據歸一化以及Python實現方式就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。