Python 機器學習庫 NumPy入門教程

發布時間：2020-09-02 16:26:38 來源：腳本之家閱讀：184 作者：只為那傳說中美麗的草原欄目：開發技術

NumPy是一個Python語言的軟件包，它非常適合于科學計算。在我們使用Python語言進行機器學習編程的時候，這是一個非常常用的基礎庫。

本文是對它的一個入門教程。

介紹

NumPy是一個用于科技計算的基礎軟件包，它是Python語言實現的。它包含了：

強大的N維數組結構
精密復雜的函數
可集成到C/C++和Fortran代碼的工具
線性代數，傅里葉變換以及隨機數能力

除了科學計算的用途以外，NumPy也可被用作高效的通用數據的多維容器。由于它適用于任意類型的數據，這使得NumPy可以無縫和高效的集成到多種類型的數據庫中。

獲取NumPy

由于這是一個Python語言的軟件包，因此需要你的機器上首先需要具備Python語言的環境。關于這一點，請自行在網絡上搜索獲取方法。

關于如何獲取NumPy也請參閱scipy.org官網上的Installing packages。本文不再贅述。

筆者推薦使用pip的方式安裝Python包，命令如下：

pip3 install numpy

本文的代碼在如下的環境中驗證和測試：

硬件：MacBook Pro 2015
OS：macOS High Sierra
語言環境：Python 3.6.2
軟件包：numpy 1.13.3

可以在這里獲取到本文的所有源碼：https://github.com/paulQuei/numpy_tutorial

另外，

為了簡單起見，本文我們會通過Python的print函數來進行結果的驗證
為了拼寫方便，我們會默認import numpy as np

基礎屬性與數組創建

NumPy的基礎是一個同構的多維數據，數組中的元素可以通過下標來索引。在NumPy中，維度稱之為axis（復數是axes），維度的數量稱之為rank。

例如：

下面是一個具有rank 1的數組，axis的長度為3：

[1, 2, 3]

下面是一個具有rank 2的數組，axis的長度也是3：

[[ 1, 2, 3],
[ 4, 5, 6]]

我們可以通過array函數來創建NumPy的數組，例如這樣：

a = np.array([1, 2, 3])
b = np.array([(1,2,3), (4,5,6)])

請注意，這里方括號是必須的，下面這種寫法是錯誤的：

a = np.array(1,2,3,4) # WRONG!!!

NumPy的數組類是ndarray，它有一個別名是 numpy.array，但這與Python標準庫的array.array并不一樣。后者僅僅是一個一維數組。而ndarray具有以下的屬性：

ndarray.ndim：數組的維數。在Python世界中，維數稱之為rank
ndarray.shape：數組的維度。這是一系列數字，長度由數組的維度（ndim）決定。例如：長度為n的一維數組的shape是n。一個n行m列的矩陣的shape是n,m
ndarray.size：數組中所有元素的數量
ndarray.dtype：數組中元素的類型，例如numpy.int32, numpy.int16或者numpy.float64
ndarray.itemsize：數組中每個元素的大小，單位為字節
ndarray.data：存儲數組元素的緩沖。通常我們只需要通過下標來訪問元素，而不需要訪問緩沖

下面我們來看一下代碼示例：

# create_array.py

import numpy as np

a = np.array([1, 2, 3])
b = np.array([(1,2,3), (4,5,6)])

print('a=')
print(a)
print("a's ndim {}".format(a.ndim))
print("a's shape {}".format(a.shape))
print("a's size {}".format(a.size))
print("a's dtype {}".format(a.dtype))
print("a's itemsize {}".format(a.itemsize))
print('')
print('b=')
print(b)
print("b's ndim {}".format(b.ndim))
print("b's shape {}".format(b.shape))
print("b's size {}".format(b.size))
print("b's dtype {}".format(b.dtype))
print("b's itemsize {}".format(b.itemsize))

下面是這段代碼的輸出：

a=
[1 2 3]
a's ndim 1
a's shape (3,)
a's size 3
a's dtype int64
a's itemsize 8
b=
[[1 2 3]
 [4 5 6]]
b's ndim 2
b's shape (2, 3)
b's size 6
b's dtype int64
b's itemsize 8

我們也可以在創建數組的時候，指定元素的類型，例如這樣：

c = np.array( [ [1,2], [3,4] ], dtype=complex )

關于array函數的更多參數說明，請參見這里：numpy.array

注：NumPy本身支持多維數組，也支持各種類型元素的數據。但考慮到，三維及以上的數組結構并不容易理解，而且我們在進行機器學習編程的時候，用的最多的是矩陣運算。因此，本文接下來的例子主要以一維和二維數字型數組來進行示例說明。

特定array的創建

在實際上的項目工程中，我們常常會需要一些特定的數據，NumPy中提供了這么一些輔助函數:

zeros：用來創建元素全部是0的數組
ones：用來創建元素全部是1的數組
empty：用來創建未初始化的數據，因此是內容是不確定的
arange：通過指定范圍和步長來創建數組
linespace：通過指定范圍和元素數量來創建數組
random：用來生成隨機數

# create_specific_array.py

import numpy as np

a = np.zeros((2,3))
print('np.zeros((2,3)= \n{}\n'.format(a))

b = np.ones((2,3))
print('np.ones((2,3))= \n{}\n'.format(b))

c = np.empty((2,3))
print('np.empty((2,3))= \n{}\n'.format(c))

d = np.arange(1, 2, 0.3)
print('np.arange(1, 2, 0.3)= \n{}\n'.format(d))

e = np.linspace(1, 2, 7)
print('np.linspace(1, 2, 7)= \n{}\n'.format(e))

f = np.random.random((2,3))
print('np.random.random((2,3))= \n{}\n'.format(f))

這段代碼的輸出如下

np.zeros((2,3)= 
[[ 0. 0. 0.]
 [ 0. 0. 0.]]
np.ones((2,3))= 
[[ 1. 1. 1.]
 [ 1. 1. 1.]]
np.empty((2,3))= 
[[ 1. 1. 1.]
 [ 1. 1. 1.]]
np.arange(1, 2, 0.3)= 
[ 1. 1.3 1.6 1.9]
np.linspace(1, 2, 7)= 
[ 1.  1.16666667 1.33333333 1.5  1.66666667 1.83333333
 2. ]
np.random.random((2,3))= 
[[ 0.5744616 0.58700653 0.59609648]
 [ 0.0417809 0.23810732 0.38372978]]

Shape與操作

除了生成數組之外，當我們已經持有某個數據之后，我們可能會需要根據已有數組來產生一些新的數據結構，這時候我們可以使用下面這些函數：

reshape：根據已有數組和指定的shape，生成一個新的數組
vstack：用來將多個數組在垂直（v代表vertical）方向拼接（數組的維度必須匹配）
hstack：用來將多個數組在水平（h代表horizontal）方向拼接（數組的維度必須匹配）
hsplit：用來將數組在水平方向拆分
vsplit：用來將數組在垂直方向拆分

下面我們通過一些例子來進行說明。

為了便于測試，我們先創建幾個數據。這里我們創建了：

zero_line：一行包含3個0的數組
one_column：一列包含3個1的數組
a：一個2行3列的矩陣
b：[11, 20)區間的整數數組

# shape_manipulation.py
zero_line = np.zeros((1,3))
one_column = np.ones((3,1))
print("zero_line = \n{}\n".format(zero_line))
print("one_column = \n{}\n".format(one_column))
a = np.array([(1,2,3), (4,5,6)])
b = np.arange(11, 20)
print("a = \n{}\n".format(a))
print("b = \n{}\n".format(b))

通過輸出我們可以看到它們的結構：

zero_line = 
[[ 0. 0. 0.]]
one_column = 
[[ 1.]
 [ 1.]
 [ 1.]]
a = 
[[1 2 3]
 [4 5 6]]
b = 
[11 12 13 14 15 16 17 18 19]

數組b原先是一個一維數組，現在我們通過reshape方法將其調整成為一個3行3列的矩陣：

# shape_manipulation.py
b = b.reshape(3, -1)
print("b.reshape(3, -1) = \n{}\n".format(b))

這里的第二參數設為-1，表示根據實際情況自動決定。由于原先是9個元素的數組，因此調整后剛好是3X3的矩陣。這段代碼輸出如下：

b.reshape(3, -1) = 
[[11 12 13]
 [14 15 16]
 [17 18 19]]

接著，我們通過vstack函數，將三個數組在垂直方向拼接：

# shape_manipulation.py
c = np.vstack((a, b, zero_line))
print("c = np.vstack((a,b, zero_line)) = \n{}\n".format(c))

這段代碼輸出如下，請讀者仔細觀察一下拼接前后的數據結構：

c = np.vstack((a,b, zero_line)) = 
[[ 1. 2. 3.]
 [ 4. 5. 6.]
 [ 11. 12. 13.]
 [ 14. 15. 16.]
 [ 17. 18. 19.]
 [ 0. 0. 0.]]

同樣的，我們也可以通過hstack進行水平方向的拼接。為了可以拼接我們需要先將數組a調整一下結構：

# shape_manipulation.py
a = a.reshape(3, 2)
print("a.reshape(3, 2) = \n{}\n".format(a))
d = np.hstack((a, b, one_column))
print("d = np.hstack((a,b, one_column)) = \n{}\n".format(d))

這段代碼輸出如下，請再次仔細觀察拼接前后的數據結構：

a.reshape(3, 2) = 
[[1 2]
 [3 4]
 [5 6]]
d = np.hstack((a,b, one_column)) = 
[[ 1.  2. 11. 12. 13.  1.]
 [ 3.  4. 14. 15. 16.  1.]
 [ 5.  6. 17. 18. 19.  1.]]

請注意，如果兩個數組的結構是不兼容的，拼接將無法完成。例如下面這行代碼，它將無法執行：

# shape_manipulation.py
# np.vstack((a,b)) # ValueError: dimensions not match

這是因為數組a具有兩列，而數組b具有3列，所以它們無法拼接。

接下來我們再看一下拆分。首先，我們將數組d在水平方向拆分成3個數組。然后我們將中間一個（下標是1）數組打印出來：

# shape_manipulation.py
e = np.hsplit(d, 3) # Split a into 3
print("e = np.hsplit(d, 3) = \n{}\n".format(e))
print("e[1] = \n{}\n".format(e[1]))

這段代碼輸出如下：

e = np.hsplit(d, 3) = 
[array([[ 1., 2.],
    [ 3., 4.],
    [ 5., 6.]]), array([[ 11., 12.],
    [ 14., 15.],
    [ 17., 18.]]), array([[ 13.,  1.],
    [ 16.,  1.],
    [ 19.,  1.]])]
e[1] = 
[[ 11. 12.]
 [ 14. 15.]
 [ 17. 18.]]

另外，假設我們設置的拆分數量使得原先的數組無法平均拆分，則操作會失敗：

# np.hsplit(d, 4) # ValueError: array split does not result in an equal division

除了指定數量平均拆分，我們也可以指定列數進行拆分。下面是將數組d從第1列和第3列兩個地方進行拆分：

# shape_manipulation.py
f = np.hsplit(d, (1, 3)) # # Split a after the 1st and the 3rd column
print("f = np.hsplit(d, (1, 3)) = \n{}\n".format(f))

這段代碼輸出如下。數組d被拆分成了分別包含1，2，3列的三個數組：

f = np.hsplit(d, (1, 3)) = 
[array([[ 1.],
    [ 3.],
    [ 5.]]), array([[ 2., 11.],
    [ 4., 14.],
    [ 6., 17.]]), array([[ 12., 13.,  1.],
    [ 15., 16.,  1.],
    [ 18., 19.,  1.]])]

最后我們再將數組d在垂直方向進行拆分。同樣的，如果指定的拆分數無法平均拆分則會失敗：

# shape_manipulation.py
g = np.vsplit(d, 3)
print("np.hsplit(d, 2) = \n{}\n".format(g))
# np.vsplit(d, 2) # ValueError: array split does not result in an equal division
np.vsplit(d, 3)將產生三個一維數組：
np.vsplit(d, 3) = 
[array([[ 1.,  2., 11., 12., 13.,  1.]]), array([[ 3.,  4., 14., 15., 16.,  1.]]), array([[ 5.,  6., 17., 18., 19.,  1.]])]

索引

接下來我們看看如何訪問NumPy數組中的數據。

同樣的，為了測試方便，我們先創建一個一維數組。它的內容是 [100，200）區間的整數。

最基本的，我們可以通過array[index]的方式指定下標來訪問數組的元素，這一點對于有一點編程經驗的人來說應該都是很熟悉的。

# array_index.py
import numpy as np
base_data = np.arange(100, 200)
print("base_data\n={}\n".format(base_data))
print("base_data[10] = {}\n".format(base_data[10]))

上面這段代碼輸出如下：

base_data
=[100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153
 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171
 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189
 190 191 192 193 194 195 196 197 198 199]
base_data[10] = 110

在NumPy中，我們可以創建一個包含了若干個下標的數組來獲取目標數組中的元素。如下所示：

# array_index.py
every_five = np.arange(0, 100, 5)
print("base_data[every_five] = \n{}\n".format(
  base_data[every_five]))

every_five是包含了我們要獲取的下標的數組，它的內容大家應該很容易理解。我們可以直接通過方括號的形式來獲取到所有我們指定了下標的元素，它們如下：

base_data[every_five] = 
[100 105 110 115 120 125 130 135 140 145 150 155 160 165 170 175 180 185
 190 195]

下標數組可以是一維的，當然也可以是多維的。假設我們要獲取一個2X2的矩陣，這個矩陣的內容來自于目標數組中1，2，10，20這四個下標的元素，則可以這樣寫：

# array_index.py
a = np.array([(1,2), (10,20)])
print("a = \n{}\n".format(a))
print("base_data[a] = \n{}\n".format(base_data[a]))

這段代碼輸出如下：

a = 
[[ 1 2]
 [10 20]]
base_data[a] = 
[[101 102]
 [110 120]]

上面我們看到的是目標數組是一維的情況，下面我們把這個數組轉換成一個10X10的二維數組。

# array_index.py
base_data2 = base_data.reshape(10, -1)
print("base_data2 = np.reshape(base_data, (10, -1)) = \n{}\n".format(base_data2))

reshape函數前面已經介紹過，大家應該能夠想到它的結果：

base_data2 = np.reshape(base_data, (10, -1)) = 
[[100 101 102 103 104 105 106 107 108 109]
 [110 111 112 113 114 115 116 117 118 119]
 [120 121 122 123 124 125 126 127 128 129]
 [130 131 132 133 134 135 136 137 138 139]
 [140 141 142 143 144 145 146 147 148 149]
 [150 151 152 153 154 155 156 157 158 159]
 [160 161 162 163 164 165 166 167 168 169]
 [170 171 172 173 174 175 176 177 178 179]
 [180 181 182 183 184 185 186 187 188 189]
 [190 191 192 193 194 195 196 197 198 199]]

對于二維數組來說：

假設我們只指定了一個下標，則訪問的結果仍然是一個數組。
假設我們指定了兩個下標，則訪問得到的是其中的元素

我們也可以通過”-1”來指定“最后一個”的元素

# array_index.py
print("base_data2[2] = \n{}\n".format(base_data2[2]))
print("base_data2[2, 3] = \n{}\n".format(base_data2[2, 3]))
print("base_data2[-1, -1] = \n{}\n".format(base_data2[-1, -1]))

這段代碼輸出如下。

對于更高維的數組，原理是一樣的，讀者可以自行推理。

base_data2[2] = 
[120 121 122 123 124 125 126 127 128 129]
base_data2[2, 3] = 
123
base_data2[-1, -1] = 
199

除此之外，我們還可以通過”:“的形式來指定范圍，例如：2:5 這樣。只寫”:“則表示全部范圍。

請看下面這段代碼：

# array_index.py
print("base_data2[2, :]] = \n{}\n".format(base_data2[2, :]))
print("base_data2[:, 3]] = \n{}\n".format(base_data2[:, 3]))
print("base_data2[2:5, 2:4]] = \n{}\n".format(base_data2[2:5, 2:4]))

它的含義是：

獲取下標為2的行的所有元素
獲取下標為3的列的所有元素

獲取下標為[2,5)行，下標為[2,4)列的所有元素。請讀者仔細觀察一下下面的輸出結果：

base_data2[2, :]] = 
[120 121 122 123 124 125 126 127 128 129]
base_data2[:, 3]] = 
[103 113 123 133 143 153 163 173 183 193]
base_data2[2:5, 2:4]] = 
[[122 123]
 [132 133]
 [142 143]]

數學運算

NumPy中自然也少不了大量的數學運算函數，下面是一些例子，更多的函數請參見這里NumPy manual contents：

# operation.py
import numpy as np
base_data = (np.random.random((5, 5)) - 0.5) * 100
print("base_data = \n{}\n".format(base_data))
print("np.amin(base_data) = {}".format(np.amin(base_data)))
print("np.amax(base_data) = {}".format(np.amax(base_data)))
print("np.average(base_data) = {}".format(np.average(base_data)))
print("np.sum(base_data) = {}".format(np.sum(base_data)))
print("np.sin(base_data) = \n{}".format(np.sin(base_data)))

這段代碼輸出如下：

base_data = 
[[ -9.63895991 6.9292461 -2.35654712 -48.45969283 13.56031937]
 [-39.75875796 -43.21031705 -49.27708561 6.80357128 33.71975059]
 [ 36.32228175 30.92546582 -41.63728955 28.68799187 6.44818484]
 [ 7.71568596 43.24884701 -14.90716555 -9.24092252 3.69738718]
 [-31.90994273 34.06067289 18.47830413 -16.02495202 -44.84625246]]

np.amin(base_data) = -49.277085606595726
np.amax(base_data) = 43.24884701268845
np.average(base_data) = -3.22680706079886
np.sum(base_data) = -80.6701765199715
np.sin(base_data) = 
[[ 0.21254814 0.60204578 -0.70685739 0.9725159 0.8381861 ]
 [-0.88287359 0.69755541 0.83514527 0.49721505 0.74315189]
 [-0.98124746 -0.47103234 0.7149727 -0.40196147 0.16425187]
 [ 0.99045239 -0.66943662 -0.71791164 -0.18282139 -0.5276184 ]
 [-0.4741657 0.47665553 -0.36278223 0.31170676 -0.76041722]]

矩陣

接下來我們看一下以矩陣的方式使用NumPy。

首先，我們創建一個5X5的隨機數整數矩陣。有兩種方式可以獲得矩陣的轉置：通過.T或者transpose函數。另外，通過dot函數可以進行矩陣的乘法，示例代碼如下：

# matrix.py

import numpy as np

base_data = np.floor((np.random.random((5, 5)) - 0.5) * 100)
print("base_data = \n{}\n".format(base_data))

print("base_data.T = \n{}\n".format(base_data.T))
print("base_data.transpose() = \n{}\n".format(base_data.transpose()))

matrix_one = np.ones((5, 5))
print("matrix_one = \n{}\n".format(matrix_one))

minus_one = np.dot(matrix_one, -1)
print("minus_one = \n{}\n".format(minus_one))

print("np.dot(base_data, minus_one) = \n{}\n".format(
 np.dot(base_data, minus_one)))
這段代碼輸出如下：

base_data = 
[[-49. -5. 11. -13. -41.]
 [ -6. -33. -33. -47. -4.]
 [-38. 26. 28. -18. 18.]
 [ -3. -19. -15. -39. 45.]
 [-43. 6. 18. -15. -21.]]

base_data.T = 
[[-49. -6. -38. -3. -43.]
 [ -5. -33. 26. -19. 6.]
 [ 11. -33. 28. -15. 18.]
 [-13. -47. -18. -39. -15.]
 [-41. -4. 18. 45. -21.]]

base_data.transpose() = 
[[-49. -6. -38. -3. -43.]
 [ -5. -33. 26. -19. 6.]
 [ 11. -33. 28. -15. 18.]
 [-13. -47. -18. -39. -15.]
 [-41. -4. 18. 45. -21.]]

matrix_one = 
[[ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]
 [ 1. 1. 1. 1. 1.]]

minus_one = 
[[-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]
 [-1. -1. -1. -1. -1.]]

np.dot(base_data, minus_one) = 
[[ 97. 97. 97. 97. 97.]
 [ 123. 123. 123. 123. 123.]
 [ -16. -16. -16. -16. -16.]
 [ 31. 31. 31. 31. 31.]
 [ 55. 55. 55. 55. 55.]]

隨機數

本文的最后，我們來看一下隨機數的使用。

隨機數是我們在編程過程中非常頻繁用到的一個功能。例如：生成演示數據，或者將已有的數據順序隨機打亂以便分割出建模數據和驗證數據。

numpy.random 包中包含了很多中隨機數的算法。下面我們列舉四種最常見的用法：

# rand.py
import numpy as np
print("random: {}\n".format(np.random.random(20)));
print("rand: {}\n".format(np.random.rand(3, 4)));
print("randint: {}\n".format(np.random.randint(0, 100, 20)));
print("permutation: {}\n".format(np.random.permutation(np.arange(20))));

在四種用法分別是：

生成20個隨機數，它們每一個都是[0.0, 1.0)之間
根據指定的shape生成隨機數
生成指定范圍內（[0, 100)）的指定數量（20）的隨機整數
對已有的數據（[0, 1, 2, ..., 19]）的順序隨機打亂順序

這段代碼的輸出如下所示：

random: [0.62956026 0.56816277 0.30903156 0.50427765 0.92117724 0.43044905
 0.54591323 0.47286235 0.93241333 0.32636472 0.14692983 0.02163887
 0.85014782 0.20164791 0.76556972 0.15137427 0.14626625 0.60972522
 0.2995841 0.27569573]
rand: [[0.38629927 0.43779617 0.96276889 0.80018417]
 [0.67656892 0.97189483 0.13323458 0.90663724]
 [0.99440473 0.85197677 0.9420241 0.79598706]]
randint: [74 65 51 34 22 69 81 36 73 35 98 26 41 84 0 93 41 6 51 55]
permutation: [15 3 8 18 14 19 16 1 0 4 10 17 5 2 6 12 9 11 13 7]

總結

以上所述是小編給大家介紹的Python 機器學習庫 NumPy入門教程，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對億速云網站的支持！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python 機器學習庫 NumPy入門教程

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python 機器學習庫 NumPy入門教程

猜你喜歡

最新資訊

相關推薦

相關標簽