您好,登錄后才能下訂單哦!
這篇文章主要介紹了Juicer怎么用,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
Juicer軟件的運行是非常簡單的,只需要設置幾個參數就可以了,本文利用官網的小的測試測試數據集來展示該軟件的基本用法。
從以下鏈接下載測試數據集
https://github.com/aidenlab/juicer/wiki/Running-Juicer-on-a-cluster
這里選用的是紅框標記的小的測試數據集,如果想要體驗完整的分析功能,可以option1提供的測試數據
wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gz
wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gz
樣本的原始序列放置在軟件安裝目錄的work/sample/fastq
目錄下,sample
替換成自己定義的名稱。
這里我沒有下載官方提供的參考基因組,而是采用了UCSC下載的基因組。對于自己下載的參考基因組,首先建立bwa的索引,為了方便管理,統一將基因組序列和索引文件放在軟件安裝目錄的references
文件夾下,用法如下
cd references
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
gunzip hg19.fa.gz
bwa index hg19.fa hg19.fa
其次建立酶切圖譜,放置在restriction_sites
目錄下,用法如下
python misc/generate_site_positions.py HindIII hg19 references/hg19.fa
第一個參數根據實際使用的內切酶來選擇,酶切圖譜生成之后,可以在輸出文件的基礎上,生成染色體大小文件, 用法如下
awk 'BEGIN{OFS="\t"}{print $1, $NF}' hg19_HindIII.txt > hg19.chrom.sizes
其實也可以從UCSC直接下載物種對應的染色質長度文件,對于其他來源的基因組文件,用上述方式更加通用。hg19.chrom.sizes文件的內容如下
chr1 249250621
chr2 243199373
chr3 198022430
chr4 191154276
該文件決定了最終的Hi-C圖譜包含的染色體名稱,對于一些random
, unplace_scaffold
序列,可以直接在該文件中去除,這樣在不會出現在最終結果中。
準備好樣本的原始序列和參考基因組的文件之后,就可以運行juicer了。用法如下
juicer.sh \
-z references/hg19.fa \
-p restriction_sites/hg19.chrom.sizes \
-y restriction_sites/hg19_HindIII.txt \
-d /home/pub/software/juicer/work/HIC003/ \
-D /home/pub/software/juicer \
-t 5
-z
參數指定參考基因組fasta所在路徑,在該路徑下必須同時存在對應的bwa索引;-p
參數指定染色體長度文件;-y
指定基因組酶切圖譜的路徑;-d
指定樣本原始文件存放的路徑;-D
指定軟件的安裝路徑,-t
指定bwa比對使用的線程數,默認是使用全部線程。
需要注意的是, 在指定文件路徑時,最好指定成絕對路徑,特別是fastq文件所在路徑。因為軟件運行過程中會使用軟鏈接,相對路徑會出錯。
軟件運行完成之后,在樣本對應的目錄下,會生成以下目錄
splits
aligned
splits
目錄下存放的是中間結果,由于hi-C數據量很大,所以會將原始序列拆分成很多份,并行運算,加快速度。默認每份包含22.5M的reads, 當然這個可以通過-C
參數調整,該參數指定拆分文件的行數,默認是90000000, 注意fastq文件4行代表一條序列,所以這個參數的值必須是4的倍數。拆分后序列的R1和R2端分別通過bwa比對基因組,然后合并,篩選嵌合體序列,去重復,生成預處理后的結果文件。
aligned
目錄下存放的是最終結果,包含了可以導入juicebox的后綴為hic
的圖譜文件, inter.hic
和inter_30.hic
, 30表示通過MAPQ > 30
進行過濾之后的結果。完整流程還會進行后續處理,包括識別TAD, 染色質環等結構。其中識別染色質環的HICCUPs算法必須通過GPU加速運行才可以,所以沒有安裝GPU卡的普通服務器無法運行這個步驟。
從上述過程可以看到,juicer的使用確實非常簡單。由于Hi-C數據的測序量非常大,以及后續分析算法的復雜度,對服務器計算資源的要求相當高,必須高性能服務器才能滿足要求,而該軟件所需的GPU卡成本也非常高,一塊的成本在2萬元左右,這些因素一定程度制約了Hi-C的普及和發展。
感謝你能夠認真閱讀完這篇文章,希望小編分享的“Juicer怎么用”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。