您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關怎么在R語言中實現兩表連接且輸出不重復數據,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
說明:
1.在項目過程中,數據量較大,用到的是data.table包,需要用到SQL中的語句減少代碼量,因此需要sqldf包。
2.以下例子中xx中的a1在yy中都有對應的值。
3.yy中的a1與b是一一對應的關系,不存在同一個a1值對應不同的b值。
4.此程序的目的是,用yy表與xx表匹配,也就是最終的結果應該是在xx的基礎上增加b這一列的信息,數據集xx的行數不變。
<span >> library(data.table) > library(sqldf) > xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span> <span >> xx a1 c d 1: 1 8 adf 2: 2 5 af 3: 3 8 sdf 4: 4 6 utr 5: 5 23 af 6: 6 7 ruti</span>
<span >yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g', 'f','h','i','b','b','c','f'))</span>
<span >> yy a1 b 1: 2 b 2: 3 c 3: 1 a 4: 4 d 5: 5 e 6: 5 e 7: 7 g 8: 6 f 9: 8 h 10: 9 i 11: 2 b 12: 2 b 13: 3 c 14: 6 f </span>
<span >#按照a1連接所有信息包括進去 > dataxy<- merge(xx, yy, by = "a1", all.x = TRUE) > dataxy a1 c d b 1: 1 8 adf a 2: 2 5 af b 3: 2 5 af b 4: 2 5 af b 5: 3 8 sdf c 6: 3 8 sdf c 7: 4 6 utr d 8: 5 23 af e 9: 5 23 af e 10: 6 7 ruti f 11: 6 7 ruti f</span>
<span >#刪除重復的行*/ > sqldf("select DISTINCT a1,b,c,d from left1") a1 b c d 1 1 a 8 adf 2 2 b 5 af 3 3 c 8 sdf 4 4 d 6 utr 5 5 e 23 af 6 6 f 7 ruti</span>
補充:R語言篩選出不重復的行的幾種方法
在做項目的過程中遇到篩選不重復的會員信息進行匹配,本次介紹五種篩選不重復行的數據:
>>> library(dplyr) >>> library(sqldf)
>>> data1 <- data7_0 %>% group_by(CELLPHONE,MEMBERID) %>% filter(row_number() == 1) %>% ungroup()
>>> data2 <- data7_0 %>% distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)
>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")
>>> data4 <- base::unique(data7_0)
>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])
以上就是怎么在R語言中實現兩表連接且輸出不重復數據,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。