中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何利用GEOquery并結合Biobase下載GEO數據庫多種數據

發布時間:2022-03-18 14:55:51 來源:億速云 閱讀:567 作者:小新 欄目:開發技術

小編給大家分享一下如何利用GEOquery并結合Biobase下載GEO數據庫多種數據,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

GEO數據庫是NCBI開發的基因表達數據庫,主要接收通過高通量測序、基因芯片等方法獲得的基因表達數據——這就方便大家利用他人數據發文章了。

而進行GEO數據挖掘的第一步就是進行數據下載,但是進入網站點點來下載,查詢搜索工作就不少,下載下來的數據還不一定能看懂。有沒有什么方法可以解決這個問題呢?當然有——R包GEOquery!下面就針對芯片數據,教大家用GEOquery包完成下載工作。

GEO數據

在下載之前要先了解GEO數據庫具體存放的四類數據:GSE、GDS、GSM、和GPL。

一個GSE Accession對應的是整個研究項目的系列的數據,可能涉及不同平臺;

一個GDS Accession對應的一個同一平臺的數據集;

一個GSM Accession對應單一樣品的數據信息,它只能是單一平臺的數據,往往,GSE 和GDS中會包含多個GSM數據;

一個GPL Accession,則對應一個platform信息。

R包安裝與加載

GEOquery

## try http:// if https:// URLs are not supported
source("https://bioconductor.org/biocLite.R")
biocLite("GEOquery")

Biobase

## try http:// if https:// URLs are not supported
source("https://bioconductor.org/biocLite.R")
biocLite("Biobase")

正確加載

library('Biobase')
library('GEOquery')
setwd("F:/GEO") ############有需要可以設置路徑

利用GSE Accession

通過閱讀文獻查找感興趣的GSE Accession,下載對應的表達數據和平臺信息等,可以利用GEOquery中的getGEO()函數下載series_matrix.txt。例如GSE70213:

> gse = getGEO("GSE70213", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
###destdir設置當前目錄,getGPL 和AnnotGPL都設置TRUE,可以下載和獲得平臺的注釋文件

gse為列表數據,對應的GSM是單平臺,則length為1,之后分別利用Biobase包中的exprs()、pData()和fData()獲得表達數據、樣品處理分組等信息、芯片平臺的設計注釋信息,還可以利用annotation()函數了解對應GPL Accession,譬如exprs()函數:

> exprSet=exprs(gse[[1]])
> head(exprSet,2)
         GSM1720833 GSM1720834 GSM1720835 GSM1720836 GSM1720837 GSM1720838 GSM1720839 GSM1720840 GSM1720841 GSM1720842
10338001 2041.40800 2200.86100  2323.7600 3216.26300 2362.77500 2195.31800 2013.35900 2146.25800  1785.9460 2067.04100
10338002   63.78059   65.08438    58.3082   75.86145   66.95605   43.81526   49.11361   51.29279    48.9604   42.14286
         GSM1720843 GSM1720844 GSM1720845 GSM1720846 GSM1720847 GSM1720848 GSM1720849 GSM1720850 GSM1720851 GSM1720852
10338001  1769.1150 1720.77400 1847.42900 2214.69800 2279.51500 2530.45600 2303.26400 2358.83400 1701.40000 1970.92400
10338002    42.5472   43.48373   64.34628   59.75188   57.48852   60.26423   54.81179   53.70885   57.86877   57.02808
         GSM1720853 GSM1720854 GSM1720855 GSM1720856
10338001 1822.78600 2014.26000 1737.84200 2001.73400
10338002   59.26121   55.27306   54.36722   49.43959

注釋信息的獲取可以進行探針和基因的對應,方便后續分析。通過exprs()、pData()和fData()獲得的數據都可以利用write.table等進行文件保存。

利用GDS Accession

GDS數據同樣可以利用getGEO()函數下載soft文件。例如GDS5881:

> gds = getGEO("GDS5881", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
###destdir設置當前目錄

gds可以利用GEOquery包中的Table()獲取表達數據,并利用Meta()獲得描述信息,其中Meta(gds)$platform可以獲得GPL Accession。

> exprSet=Table(gds)
> head(exprSet,1)
    ID_REF IDENTIFIER GSM1720845 GSM1720846 GSM1720847 GSM1720848 GSM1720849 GSM1720850 GSM1720851 GSM1720852 GSM1720853
1 10344614     Gm2889    48.4971     47.252    39.3331    49.9048    36.8313    41.9501    37.5569    38.1924    46.0668
  GSM1720854 GSM1720855 GSM1720856
1     34.689    38.5762    32.2618

> Meta(gset)$platform
[1] "GPL6246"

針對getGEO返回的gds——GDS數據,可以利用GEOquery包中GDS2Set()和GDS2MA()轉變為為ExpressionSets 和limma MALists。

> gds2eSet=GDS2eSet(gds)
> MA=GDS2MA(gds)

再針對返回的gds2eSet,利用exprs()、pData()和fData()同樣可以獲得表達數據、樣品處理分組信息、芯片平臺的設計注釋信息。返回的MA中涉及大量的描述信息,其中MA$tragets也是樣品處理信息。

利用GSM Accession

利用GSM Accession下載的是單樣本的表達數據,例如GSM1720833:

> gsm = getGEO("GSM1720833", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
針對gsm,同樣是利用GEOquery包中的Table()獲取表達數據,并利用Meta()獲得描述信息,而獲取對應的GSE Accession 和GPL Accsesion利用Meta(gsm)$series_id和Meta(gsm)$platform_id。

利用GPL Accession

針對芯片平臺,利用GPL Accession下載得到的數據是芯片的設計和注釋信息,可以獲得探針組和基因的對應關系,利用Table()函數可以顯示annotation,例如GPL6246:

> gpl = getGEO("GPL6246", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
> ann=Table(gpl)
> head(ann,2)
       ID          Gene title Gene symbol   Gene ID UniGene title UniGene symbol UniGene ID
1 10344614 predicted gene 2889      Gm2889 100040658                                        
2 10344616                                                                                  
                                                                                                                                                                                                                                                                                                                                                                                                                                                            Nucleotide Title
1 Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0009C06 product:hypothetical DeoxyUTP pyrophosphatase/Aspartyl protease, retroviral-type family profile/Retrovirus capsid, C-terminal/Peptidase aspartic/Peptidase aspartic, active site containing protein, full insert sequence///Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0042P10 product:hypothetical protein, full insert sequence
2                                                                                                                                                                                                                                                                                                                                                                                                                                                                           
                   GI   GenBank Accession Platform_CLONEID Platform_ORF      Platform_SPOTID Chromosome location
1 74211482///74217103 AK145513///AK145782                               chr1:3054233-3054733                  18
2                                                                       chr1:3102016-3102125                    
  Chromosome annotation GO:Function GO:Process GO:Component GO:Function ID GO:Process ID GO:Component ID
1         Chromosome 18                                                                                 
2

以上是“如何利用GEOquery并結合Biobase下載GEO數據庫多種數據”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

察隅县| 广德县| 金溪县| 昭觉县| 津市市| 正安县| 黎平县| 江川县| 大悟县| 界首市| 丁青县| 桂平市| 侯马市| 隆回县| 巴林右旗| 新兴县| 绥德县| 兰溪市| 麻栗坡县| 金湖县| 寻乌县| 忻城县| 黄大仙区| 德化县| 金寨县| 石狮市| 无为县| 准格尔旗| 黑龙江省| 阿尔山市| 威宁| 泸州市| 靖江市| 冀州市| 玛沁县| 靖边县| 鹰潭市| 河源市| 绥芬河市| 定结县| 晋城|