您好,登錄后才能下訂單哦!
https://haoeric.gitbooks.io/r-advanced/content/qu_zi_ji.html
http://adv-r.had.co.nz/Subsetting.html
R的取子集操作非常快捷靈活。掌握R中的取子集操作能讓你用簡潔的方式對數據進行復雜的操作,這是其他編程語言所望成莫及的。R的取子集不是那么容易學習,這之前你需要先了解幾個相關的概念:
三個取子集操作符。
六種取子集的索引方法。
對不同數據類型(比如向量,列表,因子,矩陣和數據框)取子集結果的不同。
取子集和任務分派的結合使用。
這章將幫助你一步一步掌握R的取子集操作。首先我們從最簡單的取子集(即使用[
對原子向量取子集)開始講解,然后慢慢展開,學習對較復雜的數據結構比如數組和列表取子集以及使用其他取子集操作符[[
和$
。接下來會講解如何結合取子集和任務分派來修改對象的內容。最后我們來看看一些有用的取子集應用實例。
取子集是str()
函數的補充。str()
函數幫助你了解對象的數據結構,取子集讓你從對象中提取感興趣的數據片段。
做做這個簡單的測試看看你是否需要閱讀本章內容。如果你能很快地得到答案,你可以輕松地跳過本章。本章最后提供參考答案。
使用正數索引,負數索引,邏輯向量索引以及字符串向量索引取子集分別有什么不同?
對列表使用[
,[[
或者$
有什么不同?
什么時候需要使用drop = FALSE
?
如果x
是一個矩陣,x[] <- 0
會得到什么結果,這和x <- 0
的結果有什么不同?
如何使用向量的名字來重新標記分類變量?
數據結構 首先介紹如何使用[
以及六種對原子向量取子集的索引方法。然后講解如何將這六種索引方法應用到列表,矩陣,數據框和S3對象。
取子集操作符 介紹另外兩種取子集操作符[[
和$
,著重介紹簡化與保留的原則。
在取子集和任務分派學習子分配的藝術,結合使用取子集和分派來修改對象的部分類容。
實例運用 帶你了解數據分析中取子集的八種常見運用。
學習原子向量的取子集是最簡單的,原子向量的取子集操作可以很容易地被引申運用到高維和其他更復雜的數據結構。這里我們將從最常用的取子集操作符[
開始講解。后面的取子集操作符一節會介紹另外兩種操作符,[[
和$
。
以下用一個簡單的向量x
來講解不同的取子集方式。
x <- c(2.1, 4.2, 3.3, 5.4) #注意:小數點后面的數實際標明了向量中元素的位置。
你可以用如下六種索引方式對一個向量進行取子集操作:
正整數索引 返回向量中特定位置的元素:
x[c(3, 1)] x[order(x)]# 重復的索引返回重復的值x[c(1, 1)]# 實數默認被去尾為整數x[c(2.1, 2.9)]
負整數索引 去除向量中特定位置的元素:
x[-c(3, 1)]
正整數和負整數不可以在同一個取子集操作中結合使用:
x[c(-1, 2)]
邏輯向量索引 選擇對應值為TRUE
的元素。這可能是最有用的取子集操作,因為你在代碼中常常得到邏輯向量。
x[c(TRUE, TRUE, FALSE, FALSE)] x[x > 3]
如果使用的邏輯向量的長度比被取子集的向量長度短,邏輯向量會被循環到與該向量相同的長度。
x[c(TRUE, FALSE)]# 等同于x[c(TRUE, FALSE, TRUE, FALSE)]
索引中如果出現缺失值,結果中也會對應返回缺失值:
x[c(TRUE, TRUE, NA, FALSE)]
空索引 返回原向量。這對向量取子集沒有什么用處,可是對于矩陣,數據框和數組卻非常有用。并且還可以和任務分派聯合使用。
x[]
零索引 返回一個長度為零的向量。這個不常用,但是可以用來生成測試數據。
x[0]
字符串向量索引 如果向量有名字,你也可以使用字符串向量索引返回與名字相匹配的元素:
(y <- setNames(x, letters[1:4])) y[c("d", "c", "a")]# 和整數索引一樣,你也可以使用重復字符串y[c("a", "a", "a")]# 使用[取子集時,名字必須是完全匹配的z <- c(abc = 1, def = 2) z[c("a", "d")]
對列表取子集與對原子向量取子集原理相同。使用[
將會始終返回一個向量;后面要講解的[[
和$
則會提取一個向量中的元素。
可以使用如下三種方法對高維數據取子集:
多個向量
單個向量
矩陣
最常用的對矩陣和數組取子集就是對一維向量取子集的簡單衍生,即對每一個維度提供一個用逗號彼此隔開的索引。空索引這時就有用處了,它意味著保留所有行,或者所有列。
a <- matrix(1:9, nrow = 3) colnames(a) <- c("A", "B", "C") a[1:2, ] a[c(T, F, T), c("B", "A")] a[0, -2]
默認情況下,使用[
會對結果進行簡化和降維。查看簡化與保留一節來學習如何避免這種情況。
因為矩陣和數組是由帶特殊屬性的向量構建成的,這也就意味著你也可以使用一個簡單的向量來對它們進行取子集。這中情況下矩陣和數組可以被視為一個向量,注意R中的數組是按列優先順序排列存儲的:
vals <- outer(1:5, 1:5, FUN = "paste", sep = ",") vals[c(4, 15)]
你也可以使用×××矩陣來對高維數據進行取子集(如果高維數據有名字屬性,也可以使用字符串類矩陣)。矩陣中的每一行標明一個元素在高維數據中的坐標,每一列則對應著該高維數據的某一個維度。也就是說,你要使用一個兩列的矩陣來對一個矩陣取子集,一個三列的矩陣來對一個三維數組取子集,依此類推。它們輸出的結果是一個向量:
vals <- outer(1:5, 1:5, FUN = "paste", sep = ",") select <- matrix(ncol = 2, byrow = TRUE, c( 1, 1, 3, 1, 2, 4)) vals[select]
數據框同時擁有列表和矩陣的特性:如果你用單個向量來取子集,那么數據框就表現為列表;如果使用兩個向量,數據框則表現為矩陣。
df <- data.frame(x = 1:3, y = 3:1, z = letters[1:3]) df[df$x == 2, ] df[c(1, 3), ]# 有兩種方法對一個數據框的列取子集# 同列表一樣df[c("x", "z")]# 同矩陣一樣df[, c("x", "z")]# 如果僅取數據框的某一列:使用同矩陣一樣的方法則返回值會被簡化為向量,但是使用同列表一樣方法則不會簡化。str(df["x"]) str(df[, "x"])
S3對象是由原子向量,數組和列表構成的,因此你可以使用上面介紹的方法以及str()
的幫助來對S3對象取子集。
對于S4對象有另外的兩種取子集的操作符:@
(等同于$
)和slot()
(等同于[[
)。@
相對于$
更嚴謹,如果對應所取位置不存在則會報錯。這在面相對象指南一章中會詳細介紹。
找出并修改如下代碼中的錯誤:
mtcars[mtcars$cyl = 4, ] mtcars[-1:4, ] mtcars[mtcars$cyl <= 5] mtcars[mtcars$cyl == 4 | 6, ]
為什么x <- 1:5; x[NA]
會返回五個缺失值?(提示:這和x[NA_real_]
有什么不同)
upper.tri()
返回什么值?使用它對矩陣取子集是如何操作的?我們需要其他的取子集原則來描述它么?
x <- outer(1:5, 1:5, FUN = "*") x[upper.tri(x)]
為什么mtcars[1:20]
會報錯,它和mtcars[1:20, ]
有什么不同?
自己編寫一個對矩陣取對角元素的函數(要和對矩陣x
使用diag(x)
的返回值相同)。
df[is.na(df)] <- 0
做了什么操作,怎么解釋這個代碼?
另外兩種取子集操作符分別是[[
和$
。[[
與[
相似,使用[[
可以提取列表中的元素,但是每次只能返回單個元素。$
可以看做是[[
的簡化,同時它還能結合字符串取子集。
對列表使用[
返回值始終是一個列表,然而使用[[
則返回列表中的元素。因此,提取列表中的元素時要使用[[
:
“如果列表
x
是一個滿載貨物的火車,x`5`
表示在第五節車廂 中的貨物,而x[4:6]
則表示由四,五,六號車廂組成的小火車。” --- @RLangTip
因為使用[[
只能返回單個值,所以使用的索引必須是正整數或者字符串。
a <- list(a = 1, b = 2) a`1` a[["a"]]# 如果[[里是一個向量則會迭代索引b <- list(a = list(b = list(c = list(d = 1)))) b[[c("a", "b", "c", "d")]]# 等同于b[["a"]][["b"]][["c"]][["d"]]
因為數據框本質上是由多個列向量構成的列表,所以你也可以使用[[
來提取數據框中的某一列,比如mtcars`1`
,mtcars[["cyl"]]
。
使用[
或[[
對S3和S4對象進行操作時,他們的結果會因受對象的重寫而不同。關鍵的不同在于簡化與保留。所以知道什么是默認操作很重要。
理解簡化與保留的不同非常重要。對結果進行簡化會將輸出信息轉化為最簡單的數據結構。簡化有時候很有用,因為很多時候簡化后的返回值會恰好是你想要的結構。對結果進行保留則會保證輸出與輸入的數據結構類型一致,這對提高程序的穩定性非常重要。在對矩陣和數據框取子集時忽略drop = FALSE
是導致程序出錯的一種常見原因。(可能在你的測試數據中不會有錯誤,當別人輸入單列的數據框時則會出現錯誤)
如何切換簡化或者保留因數據類型的差異而不同。具體的操作概括如下表:
簡化 | 保留 | |
---|---|---|
向量 | x`1` | x[1] |
列表 | x`1` | x[1] |
因子 | x[1:4, drop = T] | x[1:4] |
數組 | x[1, ] or x[, 1] | x[1, , drop = F] or x[, 1, drop = F] |
數據框 | x[, 1] or x`1` | x[, 1, drop = F] or x[1] |
保留操作對于所有數據類型都是一樣的:你得到和輸入同樣類型的輸出。簡化操作則對不同的數據類型會有些不同:
原向量:去除名字。
x <- c(a = 1, b = 2) x[1] x`1`
列表:返回列表中的元素而不是單個元素的列表。
y <- list(a = 1, b = 2) str(y[1]) str(y`1`)
因子:去掉多余的水平。
z <- factor(c("a", "b")) z[1] z[1, drop = TRUE]
矩陣或數組:去掉長度為一的維度。
a <- matrix(1:4, nrow = 2) a[1, , drop = FALSE] a[1, ]
數據框:若返回值是單列,則返回一個向量而不是數據框。
df <- data.frame(a = 1:2, b = 1:2) str(df[1]) str(df`1`) str(df[, "a", drop = FALSE]) str(df[, "a"])
$
$
是一個簡化操作符,x$y
等同于x[["y", exact = FALSE]]
。多用于對數據框取子集,比如mtcars$cyl
和diamonds$carat
。
使用$
的一個常用錯誤是使用一個變量替代某一列的名字:
var <- "cyl"# mtcars$var等同于mtcars[["var"]],這樣返回nullmtcars$var# 換用[[mtcars`var`
$
和[[
使用上最大的不同是,$
采用不完整配對:
x <- list(abc = 1) x$a x[["a"]]
你可以修改全域設置,將warnPartialMatchDollar
設為TRUE
來避免這種操作。但是小心這樣設置給其他導入代碼(比如其他包中的代碼)帶來的影響。
當使用的索引超出范圍(OOB)時,使用[
和[[
會表現的有所不同。比如,你試圖提取一個長度為四的向量的第五個元素,或者使用NA
或NULL
作為索引:
x <- 1:4str(x[5]) str(x[NA_real_]) str(x[NULL])
下面的表格歸納了在對向量或列表使用[
和[[
時,當出現出界索引(OOB)或缺失索引時結果的差異:
操作符 | 索引 | 原子向量 | 列表 |
---|---|---|---|
[ | OOB | NA | list(NULL) |
[ | NA_real_ | NA | list(NULL) |
[ | NULL | x[0] | list(NULL) |
[[ | OOB | Error | Error |
[[ | NA_real_ | Error | NULL |
[[ | NULL | Error | Error |
如果輸入向量有名字,那么出界索引(OOB)或缺失索引的名字為"<NA>"
。
numeric()[1] numeric()[NA_real_] numeric()[NULL] numeric()`1` numeric()`NA_real_` numeric()`NULL` list()[1] list()[NA_real_] list()[NULL] list()`1` list()`NA_real_` list()`NULL`
比如一個線性模型mod <- lm(mpg ~ wt, data = mtcars)
,如何對它提取模型中的殘余自由度,如何提取summary(mod)
中的R平方值。
所有的取子集操作都可以和任務分派結合起來對輸入的向量進行選擇性地修改。
2
x <- 1:5x[c(1, 2)] <- 2:3x# LHS的長度必須和RHS一致x[-1] <- 4:1x# 注意:重復的索引不會被除掉,會覆蓋前面的賦值x[c(1, 1)] <- 2:3x# 整型索引不能和NA一同使用x[c(1, NA)] <- c(1, 2)# 但是NA可以和邏輯索引一同使用 (這時,NA會被視為false)x[c(T, F, NA)] <- 1x# 這對修改向量中修改符合某種條件的元素很有用處df <- data.frame(a = c(1, 10, NA)) df$a[df$a < 5] <- 0df$a
使用空索引取子集搭配任務分派能保有原對象的類型和結構。比較如下兩行代碼。第一行中mtcars
將保持原類型為數據框,而第二行中mtcars
將成為一個列表。
mtcars[] <- lapply(mtcars, as.integer) mtcars <- lapply(mtcars, as.integer)
對于列表,可以使用取子集+任務分派+NULL
來去除向量中的某個特定元素。如果要添加一個NULL
到一個列表,則可以使用[
和list(NULL)
:
x <- list(a = 1, b = 2) x[["b"]] <- NULLstr(x) y <- list(a = 1) y["b"] <- list(NULL) str(y)
上面介紹的取子集的基礎知識能夠被應用到很多的場景中。以下我們會介紹其中最重要的幾個運用。有些特定的運用雖然有對應的專門的函數(比如,subset()
, merge()
, plyr::arrange()
),但是了解這些函數是如何通過基礎取子集操作來實現的對我們非常有幫助。這讓我們能夠應對那些沒有專門函數來處理的新環境。
字符匹配為制作查詢表提供了一個強大的機制。比如你想轉換一些縮寫:
x <- c("m", "f", "u", "f", "f", "m", "m") lookup <- c(m = "Male", f = "Female", u = NA) lookup[x] unname(lookup[x])# 或者更簡單的輸出c(m = "Known", f = "Known", u = "Unknown")[x]
如果不想在結果匯總出現名字,你可以使用unname()
來把它們去掉。
你可能有一個更復雜的多列的查詢表。比如我們有一個表示成績的向量,和一個描述它的特性表:
grades <- c(1, 2, 2, 3, 1) info <- data.frame( grade = 3:1, desc = c("Excellent", "Good", "Poor"), fail = c(F, F, T) )
我們想要得到每個成績在特性表中對應的信息。我們有兩種途徑來獲得,一種是使用match()
做×××取子集,另外一種是使用rownames()
做字符串取子集:
# 使用 matchid <- match(grades, info$grade) info[id, ]# 使用 rownamesrownames(info) <- info$grade info[as.character(grades), ]
如果你有多列需要匹配,那么你需要先使用interaction()
,paste()
或者plyr::id()
將它們轉換成單列。你也可以使用merge()
或plyr::join()
來做同樣的事。請查看對應函數的源代碼來學習如何實現。
你可以使用×××索引來對一個向量或者數據框進行隨機取樣和自助取樣。首先使用sample()
函數生成一個隨機索引向量,然后對對象取子集。
df <- data.frame(x = rep(1:3, each = 2), y = 6:1, z = letters[1:6])# 為可重復性操作設置種子set.seed(10)# 隨機重排df[sample(nrow(df)), ]# 隨機取3排df[sample(nrow(df), 3), ]# 取6個自助樣本df[sample(nrow(df), 6, rep = T), ]
設置sample()
函數的參數來調整取樣的個數,以及是否重復取樣。
order()
函數的輸入是一個向量,返回一個存儲該向量排列順序的整型向量。
x <- c("b", "c", "a") order(x) x[order(x)]
可以給order()
函數提供額外參數來重排并列值的順序。可以使用decreasing = TRUE
將返回結果變成降序排列。默認情況下,缺失值會被排在最后;可以使用na.last = NA
來去除它們,或者使用na.last = FALSE
將它們放在最前面。
當目標對象是二維或更高維時,可以使用order()
和×××索引來簡單地對行或者列排序:
# 隨機重排dfdf2 <- df[sample(nrow(df)), 3:1] df2 df2[order(df2$x), ] df2[, order(names(df2))]
使用sort()
可以對向量進行排序,plyr::arrange()
則可以對數據框排序。
有時候你的數據框中的重復行可能被匯總為一行,同時添加一列來標記重復的次數。可以使用rep()
生成有重復的行×××索引來展開匯總計數:
df <- data.frame(x = c(2, 4, 1), y = c(9, 11, 6), n = c(3, 5, 1)) rep(1:nrow(df), df$n) df[rep(1:nrow(df), df$n), ]
有兩種方法來去除數據框中的某列。一種是將該列設為NULL:
df <- data.frame(x = 1:3, y = 3:1, z = letters[1:3]) df$z <- NULL
另外一種是生成只包含你想要的列的新數據框:
df <- data.frame(x = 1:3, y = 3:1, z = letters[1:3]) df[c("x", "y")]
如果你知道你不想要的列信息,使用setdiff
篩選出你想要保留的列:
df[setdiff(names(df), "z")]
因為我們能很容易地整合多列的條件判斷,所以邏輯型取子集應該是對數據框進行行篩選的最常用的方法。
mtcars[mtcars$gear == 5, ] mtcars[mtcars$gear == 5 & mtcars$cyl == 4, ]
注意使用向量型邏輯運算符&
和|
, 而不是縮短的標量型邏輯運算符&&
和||
,&&
和||
在if
條件判斷中比較有用。靈活運用德摩根定律可以大大簡化否定的邏輯操作。
!(X & Y)
等同于 !X | !Y
!(X | Y)
等同于 !X & !Y
比如 !(X & !(Y | Z))
可以簡化成 !X | !!(Y|Z)
,更進一步成!X | Y | Z
。
subset()
是專門用來對數據框取子集的速記函數。使用subset()
可以免掉重復輸入數據框的名字從而節省代碼。在非標準評估一章,你會學習subset()
的工作原理。
subset(mtcars, gear == 5) subset(mtcars, gear == 5 & cyl == 4)
認識邏輯運算(邏輯型取子集)和集合運算(整型取子集)本質上的相同點非常有用,而使用集合運算更為高效:
你想知道第一個(或最后一個)TRUE
。
你有很多的FALSE
卻比較少的TRUE
;使用集合運算更快更節省內存。
which()
可以幫助你將邏輯型轉換為×××表示。在基礎R中沒有which()
的逆操作,但是我們可以很容易的編寫一個:
x <- sample(10) < 4which(x) unwhich <- function(x, n) { out <- rep_len(FALSE, n) out[x] <- TRUE out } unwhich(which(x), 10)
我們創建兩個邏輯型向量和對應的整型向量來探索一下邏輯運算和集合運算之間的關系。
(x1 <- 1:10 %% 2 == 0) (x2 <- which(x1)) (y1 <- 1:10 %% 5 == 0) (y2 <- which(y1))# X & Y <-> intersect(x, y)x1 & y1 intersect(x2, y2)# X | Y <-> union(x, y)x1 | y1 union(x2, y2)# X & !Y <-> setdiff(x, y)x1 & !y1 setdiff(x2, y2)# xor(X, Y) <-> setdiff(union(x, y), intersect(x, y))xor(x1, y1) setdiff(union(x2, y2), intersect(x2, y2))
剛開始學習取子集的一個常見錯誤是使用x[which(y)]
而不是x[y]
。這里的which()
沒有什么意義:它將邏輯型轉換為×××索引,可是結果確實完全一樣的。同時注意x[-which(y)]
不等同于x[!y]
:當y
全是FALSE時,which(y)
會返回integer(0)
,那么-integer(0)
依然是integer(0)
,因此你會得到空值而不是所有的值。因此,除非你確實需要(比如提取第一個或最后一個TRUE
值),盡量避免將邏輯型取子集轉換為整型取子集。
如何隨機的打亂一個數據框的列?(這在隨機深林方法中是非常重要的一步)你又如何同時將數據框的行和列打亂?
如何從一個數據框中隨機的提取一個m
行的子集?
如何使數據框的列按字符順序排列?
正整數索引提取特定位置的元素,而負整數索引去除特定位置的元素;邏輯型索引保留對應位置為TRUE
的元素;字符串索引篩選和名字匹配的元素。
[
用來取子列表,并且總是返回列表;如果使用長度為1的×××索引,它將返回長度為1的一個列表。[[
提取列表中的某個元素。$
是一個便捷的速記符,x$y
等同于x[["y"]]
。
在對一個矩陣、數組或者數據框取子集時,如果你想要保留原有的數據維度,使用drop = FALSE
。在某個函數中取子集,最好總是設置drop = FALSE
。
如果x
是一個矩陣,x[] <- 0
會將每一個元素替換為0,保留原有的行數和列數。x <- 0
則將整個矩陣替換為0。
一個帶有名字的向量可以被用來作為一個簡單的查詢表: c(x = 1, y = 2, z = 3)[c("y", "z", "x")]
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。