怎么在R語言中使用summary()函數

發布時間：2021-04-21 15:45:55 來源：億速云閱讀：2240 作者：Leah 欄目：開發技術

本篇文章為大家展示了怎么在R語言中使用summary()函數，內容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細介紹希望你能有所收獲。

什么是R語言

R語言是用于統計分析、繪圖的語言和操作環境，屬于GNU系統的一個自由、免費、源代碼開放的軟件，它是一個用于統計計算和統計制圖的優秀工具。

summary()：獲取描述性統計量，可以提供最小值、最大值、四分位數和數值型變量的均值，以及因子向量和邏輯型向量的頻數統計等。

結果解讀如下：

怎么在R語言中使用summary()函數

1. 調用：Call

lm(formula = DstValue ~ Month + RecentVal1 + RecentVal4 + RecentVal6 + RecentVal8 + RecentVal12, data = trainData)

當創建模型時，以上代碼表明lm是如何被調用的。

2. 殘差統計量：Residuals

 Min           1Q        Median         3Q         Max 
          -4806.5    -1549.1     -171.8      1368.7     6763.3

殘差第一四分位數（1Q）和第三分位數（Q3）有大約相同的幅度，意味著有較對稱的鐘形分布。

3. 系數：Coefficients

Estimate     Std. Error       t value     Pr(>|t|)    
       (Intercept)      1.345e+06    5.659e+05     2.377     0.01879 *  
       Month             8.941e+02    2.072e+02    4.316     3.00e-05 ***

分別表示：估值標準誤差 T值 P值

Intercept：表示截距

Month：影響因子/特征

Estimate的列：包含由普通最小二乘法計算出來的估計回歸系數。

Std. Error的列：估計的回歸系數的標準誤差。

P值估計系數不顯著的可能性，有較大P值的變量是可以從模型中移除的候選變量。

t 統計量和P值：從理論上說，如果一個變量的系數是0，那么該變量是無意義的，它對模型毫無貢獻。

然而，這里顯示的系數只是估計，它們不會正好為0。

因此，我們不禁會問：從統計的角度而言，真正的系數為0的可能性有多大？這是t統計量和P值的目的，在匯總中被標記為t value和Pr(>|t|)。

其中，我們可以直接通過P值與我們預設的0.05進行比較，來判定對應的解釋變量的顯著性，我們檢驗的原假設是：該系數顯著為0；若P<0.05，則拒絕原假設，即對應的變量顯著不為0。

可以看到Month、RecentVal4、RecentVal8都可以認為是在P為0.05的水平下顯著不為0，通過顯著性檢驗；Intercept的P值為0.26714，不顯著。

4. Multiple R-squared和Adjusted R-squared

這兩個值，即R^{2}，常稱之為“擬合優度”和“修正的擬合優度”，指回歸方程對樣本的擬合程度幾何，這里我們可以看到，修正的擬合優度=0.8416，表示擬合程度良好，這個值當然是越高越好。

當然，提升擬合優度的方法很多，當達到某個程度，我們也就認為差不多了。

具體還有很復雜的判定內容，有興趣的可以看看：http://baike.baidu.com/view/657906.htm

5. F-statistic

F-statistic，是我們常說的F統計量，也成為F檢驗，常常用于判斷方程整體的顯著性檢驗，其值越大越顯著；其P值為p-value: < 2.2e-16，顯然是<0.05的，可以認為方程在P=0.05的水平上還是通過顯著性檢驗的。

簡單總結：

T檢驗：檢驗解釋變量的顯著性；

R-squared：查看方程擬合程度；

F檢驗：是檢驗方程整體顯著性。

如果是一元線性回歸方程，T檢驗的值和F檢驗的檢驗效果是一樣的，對應的值也是相同的。

補充：在R語言中顯示美麗的數據摘要summary統計信息

總結數據集

## Skim summary statistics
##  n obs: 150 
##  n variables: 5 
## 
## Variable type: factor 
##   variable missing complete   n n_unique                       top_counts
## 1  Species       0      150 150        3 set: 50, ver: 50, vir: 50, NA: 0
##   ordered
## 1   FALSE
## 
## Variable type: numeric 
##       variable missing complete   n mean   sd min p25 median p75 max
## 1 Petal.Length       0      150 150 3.76 1.77 1   1.6   4.35 5.1 6.9
## 2  Petal.Width       0      150 150 1.2  0.76 0.1 0.3   1.3  1.8 2.5
## 3 Sepal.Length       0      150 150 5.84 0.83 4.3 5.1   5.8  6.4 7.9
## 4  Sepal.Width       0      150 150 3.06 0.44 2   2.8   3    3.3 4.4
##       hist
## 1 ▇▁▁▂▅▅▃▁
## 2 ▇▁▁▅▃▃▂▂
## 3 ▂▇▅▇▆▅▂▂
## 4 ▁▂▅▇▃▂▁▁

選擇要匯總的特定列

## Skim summary statistics
##  n obs: 150 
##  n variables: 5 
## 
## Variable type: numeric 
##       variable missing complete   n mean   sd min p25 median p75 max
## 1 Petal.Length       0      150 150 3.76 1.77 1   1.6   4.35 5.1 6.9
## 2 Sepal.Length       0      150 150 5.84 0.83 4.3 5.1   5.8  6.4 7.9
##       hist
## 1 ▇▁▁▂▅▅▃▁
## 2 ▂▇▅▇▆▅▂▂

處理分組數據

可以處理已使用分組的數據dplyr::group_by。

## Skim summary statistics
##  n obs: 150 
##  n variables: 5 
##  group variables: Species 
## 
## Variable type: numeric 
##       Species     variable missing complete  n mean   sd min  p25 median
## 1      setosa Petal.Length       0       50 50 1.46 0.17 1   1.4    1.5 
## 2      setosa  Petal.Width       0       50 50 0.25 0.11 0.1 0.2    0.2 
## 3      setosa Sepal.Length       0       50 50 5.01 0.35 4.3 4.8    5   
## 4      setosa  Sepal.Width       0       50 50 3.43 0.38 2.3 3.2    3.4 
## 5  versicolor Petal.Length       0       50 50 4.26 0.47 3   4      4.35
## 6  versicolor  Petal.Width       0       50 50 1.33 0.2  1   1.2    1.3 
## 7  versicolor Sepal.Length       0       50 50 5.94 0.52 4.9 5.6    5.9 
## 8  versicolor  Sepal.Width       0       50 50 2.77 0.31 2   2.52   2.8 
## 9   virginica Petal.Length       0       50 50 5.55 0.55 4.5 5.1    5.55
## 10  virginica  Petal.Width       0       50 50 2.03 0.27 1.4 1.8    2   
## 11  virginica Sepal.Length       0       50 50 6.59 0.64 4.9 6.23   6.5 
## 12  virginica  Sepal.Width       0       50 50 2.97 0.32 2.2 2.8    3   
##     p75 max     hist
## 1  1.58 1.9 ▁▁▅▇▇▅▂▁
## 2  0.3  0.6 ▂▇▁▂▂▁▁▁
## 3  5.2  5.8 ▂▃▅▇▇▃▁▂
## 4  3.68 4.4 ▁▁▃▅▇▃▂▁
## 5  4.6  5.1 ▁▃▂▆▆▇▇▃
## 6  1.5  1.8 ▆▃▇▅▆▂▁▁
## 7  6.3  7   ▃▂▇▇▇▃▅▂
## 8  3    3.4 ▁▂▃▅▃▇▃▁
## 9  5.88 6.9 ▂▇▃▇▅▂▁▂
## 10 2.3  2.5 ▂▁▇▃▃▆▅▃
## 11 6.9  7.9 ▁▁▃▇▅▃▂▃
## 12 3.18 3.8 ▁▃▇▇▅▃▁▂

指定統計信息和類

可以用戶使用與該skim_with()功能組合的列表來指定自己的統計信息。

## Skim summary statistics
##  n obs: 150 
##  n variables: 5 
## 
## Variable type: numeric 
##       variable iqr  mad
## 1 Sepal.Length 1.3 1.04

上述內容就是怎么在R語言中使用summary()函數，你們學到知識或技能了嗎？如果還想學到更多技能或者豐富自己的知識儲備，歡迎關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么在R語言中使用summary()函數

什么是R語言

1. 調用：Call

2. 殘差統計量：Residuals

3. 系數：Coefficients

4. Multiple R-squared和Adjusted R-squared

5. F-statistic

簡單總結：

總結數據集

選擇要匯總的特定列

處理分組數據

指定統計信息和類

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么在R語言中使用summary()函數

什么是R語言

1. 調用：Call

2. 殘差統計量：Residuals

3. 系數：Coefficients

4. Multiple R-squared和Adjusted R-squared

5. F-statistic

簡單總結：

總結數據集

選擇要匯總的特定列

處理分組數據

指定統計信息和類

猜你喜歡

最新資訊

相關推薦

相關標簽