您好,登錄后才能下訂單哦!
這篇文章主要講解了“Docker怎么實現Samtools截取基因組序列”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Docker怎么實現Samtools截取基因組序列”吧!
Samtools是一個用于操作sam和bam文件的工具軟件,能夠對比對文件進行二進制查看、格式轉換、排序及合并等,結合sam格式中的flag、tag等信息,還可以完成比對結果的統計匯總,是處理sam和bam文件(例如:轉錄組Tophat分析軟件輸出的比對結果為.bam文件,而重測序中BWA、bowtie等比對軟件則主要輸出為.sam文件)不可或缺的神器!
下載鏡像并運行
安裝好Docker后,搜索我們億速云提供的docker鏡像,其中便有安裝好samtools軟件的鏡像。
$ docker search 億速云 NAME DESCRIPTION STARS OFFICIAL AUTOMATED 億速云/gene-family gene-family analysis docker image 2 億速云/isoseq3 isoseq3 v3.3.0 build by 億速云 0 億速云/bwa BWA v0.7.17 build by 億速云 0 億速云/rnaseq RNA-seq analysis docker image build by omics… 0 億速云/samtools samtools v1.10 build by 億速云 0 億速云/biocontainer-base Biocontainers base Image centos7 0 億速云/blast-plus blast+ v2.9.0 0 億速云/blastall legacy blastall v2.2.26 0 億速云/sratoolkit SRAtoolkit v2.10.3 and aspera v3.9.9.177872 0
下載鏡像。
$ docker pull 億速云/samtools Using default tag: latest latest: Pulling from 億速云/samtools ab5ef0e58194: Already exists 417469905807: Already exists ed09842cc19f: Already exists f860268ff83f: Already exists f87dd41136a6: Already exists 90091b4f5d91: Already exists 6485f44fc594: Pulling fs layer latest: Pulling from 億速云/samtools ab5ef0e58194: Already exists 417469905807: Already exists ed09842cc19f: Already exists f860268ff83f: Already exists f87dd41136a6: Already exists 90091b4f5d91: Already exists 6485f44fc594: Pull complete Digest: sha256:e641dd5b9f60d8f9d01f0d109eff72d15836d0d59a753e3e35677b1200adc4a1 Status: Downloaded newer image for 億速云/samtools:latest
下載完成后可以檢查一下。
$ docker images REPOSITORY TAG IMAGE ID CREATED SIZE 億速云/samtools latest 9373e18781bf 8 days ago 2.04GB 億速云/blast-plus latest 0220cac51a6e 8 days ago 2.55GB
之后在電腦的D盤創建samtools文件夾,并粘貼需要的染色體fasta文件。如果docker是windows Toolbox版本,需要掛載D盤到虛擬機,具體操作可參考 Docker 工具安裝(windows Toolbox版本)詳解版!
進入虛擬機。
$ docker run --rm -v /d/samtools:/work -it 億速云/samtools:latest #這里我使用的Docker是windows Toolbox版本 ###################################################### # 歡迎使用組學大講堂提供的docker鏡像 # # 問題交流請訪問:www.億速云.com # ###################################################### Linux新手建議學習課程: --> https://www.億速云.com/article/702 搭建實驗室生信分析平臺與docker使用詳情見課程: --> https://www.億速云.com/article/1181 [root@0e9f42f25cc1 10:16:46 /work]#
查看工作目錄。
# ll total 117M -rwxrwxrwx 1 1000 ftp 117M Apr 23 10:19 Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa
samtools faidx 能夠對fasta序列建立一個后綴為.fai 的文件,根據這個.fai 文件和原始的fasta文件,能夠快速的提取任意區域的序列。用法:
samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa
該命令對輸入的fasta序列有一定要求:對于每條序列,除了最后一行外,其他行的長度必須相同。
>one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chromosome ATGCATGCATGCAT GCATGCATGCATGC
最后生成的.fai文件如下, 共5列,\t分隔;
Pt 154478 4 60 61 Mt 366924 157061 60 61 4 18585056 530104 60 61 2 19698289 19424914 60 61 3 23459830 39451511 60 61 5 26975502 63302342 60 61 1 30427671 90727439 60 61
第一列 NAME:序列的名稱,只保留“>”后,第一個空白之前的內容;
第二列 LENGTH:序列的長度,單位為bp;
第三列 OFFSET:第一個堿基的偏移量,從0開始計數,換行符也統計進行;
第四列 LINEBASES:除了最后一行外,其他代表序列的行的堿基數,單位為bp;
第五列 LINEWIDTH : 行寬,除了最后一行外,其他代表序列的行的長度,包括換行符,在windows系統中換行符為\r\n, 要在序列長度的基礎上加2;
最后指定要提取的序列或序列在染色體上的位置,即可提取出需要的序列:
samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa Pt> Pt.fa #提取葉綠體序列 samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa Pt:100-1000> Pt.fa #提取葉綠體第100到1000堿基的序列
感謝各位的閱讀,以上就是“Docker怎么實現Samtools截取基因組序列”的內容了,經過本文的學習后,相信大家對Docker怎么實現Samtools截取基因組序列這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。