Juicer怎么用

發布時間：2021-12-27 10:39:50 來源：億速云閱讀：243 作者：小新欄目：大數據

這篇文章主要介紹了Juicer怎么用，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

Juicer軟件的運行是非常簡單的，只需要設置幾個參數就可以了，本文利用官網的小的測試測試數據集來展示該軟件的基本用法。

1. 下載測試數據

從以下鏈接下載測試數據集

https://github.com/aidenlab/juicer/wiki/Running-Juicer-on-a-cluster

這里選用的是紅框標記的小的測試數據集，如果想要體驗完整的分析功能，可以option1提供的測試數據

Juicer怎么用

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gz
wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gz

樣本的原始序列放置在軟件安裝目錄的work/sample/fastq目錄下，sample替換成自己定義的名稱。

2. 運行

這里我沒有下載官方提供的參考基因組，而是采用了UCSC下載的基因組。對于自己下載的參考基因組，首先建立bwa的索引，為了方便管理，統一將基因組序列和索引文件放在軟件安裝目錄的references文件夾下，用法如下

cd references
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
gunzip hg19.fa.gz
bwa index hg19.fa hg19.fa

其次建立酶切圖譜，放置在restriction_sites目錄下，用法如下

python  misc/generate_site_positions.py HindIII hg19 references/hg19.fa

第一個參數根據實際使用的內切酶來選擇，酶切圖譜生成之后，可以在輸出文件的基礎上，生成染色體大小文件, 用法如下

awk 'BEGIN{OFS="\t"}{print $1, $NF}'  hg19_HindIII.txt > hg19.chrom.sizes

其實也可以從UCSC直接下載物種對應的染色質長度文件，對于其他來源的基因組文件，用上述方式更加通用。hg19.chrom.sizes文件的內容如下

chr1    249250621
chr2    243199373
chr3    198022430
chr4    191154276

該文件決定了最終的Hi-C圖譜包含的染色體名稱，對于一些random, unplace_scaffold序列，可以直接在該文件中去除，這樣在不會出現在最終結果中。
準備好樣本的原始序列和參考基因組的文件之后，就可以運行juicer了。用法如下

juicer.sh \
-z references/hg19.fa \
-p restriction_sites/hg19.chrom.sizes \
-y restriction_sites/hg19_HindIII.txt \
-d /home/pub/software/juicer/work/HIC003/ \
-D /home/pub/software/juicer \
-t 5

-z參數指定參考基因組fasta所在路徑，在該路徑下必須同時存在對應的bwa索引；-p參數指定染色體長度文件；-y指定基因組酶切圖譜的路徑；-d指定樣本原始文件存放的路徑；-D指定軟件的安裝路徑，-t指定bwa比對使用的線程數，默認是使用全部線程。

需要注意的是, 在指定文件路徑時，最好指定成絕對路徑，特別是fastq文件所在路徑。因為軟件運行過程中會使用軟鏈接，相對路徑會出錯。

軟件運行完成之后，在樣本對應的目錄下，會生成以下目錄

splits
aligned

splits目錄下存放的是中間結果，由于hi-C數據量很大，所以會將原始序列拆分成很多份，并行運算，加快速度。默認每份包含22.5M的reads, 當然這個可以通過-C參數調整，該參數指定拆分文件的行數，默認是90000000，注意fastq文件4行代表一條序列，所以這個參數的值必須是4的倍數。拆分后序列的R1和R2端分別通過bwa比對基因組，然后合并，篩選嵌合體序列，去重復，生成預處理后的結果文件。

aligned目錄下存放的是最終結果，包含了可以導入juicebox的后綴為hic的圖譜文件, inter.hic和inter_30.hic， 30表示通過MAPQ > 30進行過濾之后的結果。完整流程還會進行后續處理，包括識別TAD, 染色質環等結構。其中識別染色質環的HICCUPs算法必須通過GPU加速運行才可以，所以沒有安裝GPU卡的普通服務器無法運行這個步驟。

從上述過程可以看到，juicer的使用確實非常簡單。由于Hi-C數據的測序量非常大，以及后續分析算法的復雜度，對服務器計算資源的要求相當高，必須高性能服務器才能滿足要求，而該軟件所需的GPU卡成本也非常高，一塊的成本在2萬元左右，這些因素一定程度制約了Hi-C的普及和發展。

感謝你能夠認真閱讀完這篇文章，希望小編分享的“Juicer怎么用”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關注億速云行業資訊頻道，更多相關知識等著你來學習!

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Juicer怎么用

1. 下載測試數據

2. 運行

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Juicer怎么用

1. 下載測試數據

2. 運行

猜你喜歡

最新資訊

相關推薦

相關標簽