Python中進行統計建模的方法是什么

發布時間：2020-08-11 15:46:34 來源：億速云閱讀：299 作者：小新欄目：開發技術

這篇文章將為大家詳細講解有關Python中進行統計建模的方法是什么，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

前言

大家好，在之前的文章中我們已經講解了很多Python數據處理的方法比如讀取數據、缺失值處理、數據降維等，也介紹了一些數據可視化的方法如Matplotlib、pyecharts等，那么在掌握了這些基礎技能之后，要進行更深入的分析就需要掌握一些常用的建模方法，本文將講解如何利用Python進行統計分析。和之前的文章類似，本文只講如何用代碼實現，不做理論推導與過多的結果解釋(事實上常用的模型可以很輕松的查到完美的推導與解析)。因此讀者需要掌握一些基本的統計模型比如回歸模型、時間序列等。

Statsmodels簡介

在Python 中統計建模分析最常用的就是Statsmodels模塊。Statsmodels是一個主要用來進行統計計算與統計建模的Python庫。主要有以下功能：

探索性分析：包含列聯表、鏈式方程多重插補等探索性數據分析方法以及與統計模型結果的可視化圖表，例如擬合圖、箱線圖、相關圖、時間序列圖等
回歸模型：線性回歸模型、非線性回歸模型、廣義線性模型、線性混合效應模型等
其他功能：方差分析、時間序列分析等模型的參數估計與估計參數的假設檢驗等

安裝 brew install Statsmodels
文檔 github.com/statsmodels/statsmodels

線性回歸模型：普通最小二乘估計

線性模型有普通最小二乘(OLS)廣義最小二乘(GLS)、加權最小二乘(WLS)等，Statsmodels對線性模型有較好的支持，來看個最簡單的例子：普通最小二乘(OLS)

首先導入相關包

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.sandbox.regression.predstd import wls_prediction_std
np.random.seed(9876789)

然后創建數據，先設置樣本量為100

nsample = 100 #樣本數量

然后設置x1和x2，x1是0到10等差排列，x2是x1的平方

x = np.linspace(0, 10, 100)
X = np.column_stack((x, x**2))

再設置beta、誤差項與響應變量y

beta = np.array([1, 0.1, 10])
e = np.random.normal(size=nsample)
X = sm.add_constant(X)
y = np.dot(X, beta) + e

接著建立回歸模型

model = sm.OLS(y, X) 
results = model.fit()
print(results.summary())

查看模型結果

Python中進行統計建模的方法是什么

是不是和R語言輸出的結果形式很接近？回歸系數值、P-value、R-squared等評估回歸模型的參數值全部都有，還可以使用dir(results)獲得全部變量的值并調取出來

print('Parameters: ', results.params)
print('R2: ', results.rsquared)

那么回歸模型的就是y=1.3423-0.0402x1+10.0103x2，當然這個模型可以繼續優化那么就交給讀者完成。接下來我們來繪制一下樣本點與回歸曲線

y_fitted = results.fittedvalues
fig, ax = plt.subplots(figsize=(8,6))
ax.plot(x, y, 'o', label='data')
ax.plot(x, y_fitted, 'r--.',label='OLS')
ax.legend(loc='best')

Python中進行統計建模的方法是什么

時間序列：ARMA

關于時間序列的模型有很多，我們選擇ARMA模型示例，首先導入相關包并生成數據

%matplotlib inline
import numpy as np
import statsmodels.api as sm
import pandas as pd
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(12345)

arparams = np.array([.75, -.25])
maparams = np.array([.65, .35])

arparams = np.r_[1, -arparams]
maparams = np.r_[1, maparams]
nobs = 250
y = arma_generate_sample(arparams, maparams, nobs)

接著，我們可以添加一些日期信息。對于本例，我們將使用pandas時間序列并建立模型

dates = sm.tsa.datetools.dates_from_range('1980m1', length=nobs)
y = pd.Series(y, index=dates)
arma_mod = sm.tsa.ARMA(y, order=(2,2))
arma_res = arma_mod.fit(trend='nc', disp=-1)

Python中進行統計建模的方法是什么

最后再做一下預測

import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(10,8))
fig = arma_res.plot_predict(start='1999-06-30', end='2001-05-31', ax=ax)
legend = ax.legend(loc='upper left')

Python中進行統計建模的方法是什么

回歸診斷：估計回歸模型

首先導入相關包

%matplotlib inline
from statsmodels.compat import lzip
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt

然后加載數據

url = 'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/HistData/Guerry.csv'
dat = pd.read_csv(url)

擬合模型

results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()

查看結果

print(results.summary())

Python中進行統計建模的方法是什么

回歸診斷：殘差的正態性

Jarque-Bera test:

name = ['Jarque-Bera', 'Chi^2 two-tail prob.', 'Skew', 'Kurtosis']
test = sms.jarque_bera(results.resid)
lzip(name, test)
####結果
[('Jarque-Bera', 3.3936080248431666),
('Chi^2 two-tail prob.', 0.1832683123166337),
('Skew', -0.48658034311223375),
('Kurtosis', 3.003417757881633)]

Omni test:

name = ['Chi^2', 'Two-tail probability']
test = sms.omni_normtest(results.resid)
lzip(name, test)
####結果
[('Chi^2', 3.713437811597181), ('Two-tail probability', 0.15618424580304824)]

回歸診斷：異方差

Breush-Pagan test:

name = ['Lagrange multiplier statistic', 'p-value',
    'f-value', 'f p-value']
test = sms.het_breuschpagan(results.resid, results.model.exog)
lzip(name, test)
###結果
[('Lagrange multiplier statistic', 4.893213374093957),
('p-value', 0.08658690502352209),
('f-value', 2.503715946256434),
('f p-value', 0.08794028782673029)]
Goldfeld-Quandt test

name = ['F statistic', 'p-value']
test = sms.het_goldfeldquandt(results.resid, results.model.exog)
lzip(name, test)
####結果
[('F statistic', 1.1002422436378152), ('p-value', 0.3820295068692507)]

回歸診斷：多重共線性

檢查多重共線性可以使用

np.linalg.cond(results.model.exog)

結果是702.1792145490062，說明存在較強多重共線性。

關于Python中進行統計建模的方法是什么就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python中進行統計建模的方法是什么

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python中進行統計建模的方法是什么

猜你喜歡

最新資訊

相關推薦

相關標簽