中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Juicer怎么用

發布時間:2021-12-27 10:39:50 來源:億速云 閱讀:243 作者:小新 欄目:大數據

這篇文章主要介紹了Juicer怎么用,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

Juicer軟件的運行是非常簡單的,只需要設置幾個參數就可以了,本文利用官網的小的測試測試數據集來展示該軟件的基本用法。

1. 下載測試數據

從以下鏈接下載測試數據集

https://github.com/aidenlab/juicer/wiki/Running-Juicer-on-a-cluster

這里選用的是紅框標記的小的測試數據集,如果想要體驗完整的分析功能,可以option1提供的測試數據

Juicer怎么用

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gz
wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gz

樣本的原始序列放置在軟件安裝目錄的work/sample/fastq目錄下,sample替換成自己定義的名稱。

2. 運行

這里我沒有下載官方提供的參考基因組,而是采用了UCSC下載的基因組。對于自己下載的參考基因組,首先建立bwa的索引,為了方便管理,統一將基因組序列和索引文件放在軟件安裝目錄的references文件夾下,用法如下

cd references
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
gunzip hg19.fa.gz
bwa index hg19.fa hg19.fa

其次建立酶切圖譜,放置在restriction_sites目錄下,用法如下

python  misc/generate_site_positions.py HindIII hg19 references/hg19.fa

第一個參數根據實際使用的內切酶來選擇,酶切圖譜生成之后,可以在輸出文件的基礎上,生成染色體大小文件, 用法如下

awk 'BEGIN{OFS="\t"}{print $1, $NF}'  hg19_HindIII.txt > hg19.chrom.sizes

其實也可以從UCSC直接下載物種對應的染色質長度文件,對于其他來源的基因組文件,用上述方式更加通用。hg19.chrom.sizes文件的內容如下

chr1    249250621
chr2    243199373
chr3    198022430
chr4    191154276

該文件決定了最終的Hi-C圖譜包含的染色體名稱,對于一些random, unplace_scaffold序列,可以直接在該文件中去除,這樣在不會出現在最終結果中。
準備好樣本的原始序列和參考基因組的文件之后,就可以運行juicer了。用法如下

juicer.sh \
-z references/hg19.fa \
-p restriction_sites/hg19.chrom.sizes \
-y restriction_sites/hg19_HindIII.txt \
-d /home/pub/software/juicer/work/HIC003/ \
-D /home/pub/software/juicer \
-t 5

-z參數指定參考基因組fasta所在路徑,在該路徑下必須同時存在對應的bwa索引;-p參數指定染色體長度文件;-y指定基因組酶切圖譜的路徑;-d指定樣本原始文件存放的路徑;-D指定軟件的安裝路徑,-t指定bwa比對使用的線程數,默認是使用全部線程。

需要注意的是, 在指定文件路徑時,最好指定成絕對路徑,特別是fastq文件所在路徑。因為軟件運行過程中會使用軟鏈接,相對路徑會出錯。

軟件運行完成之后,在樣本對應的目錄下,會生成以下目錄

  1. splits

  2. aligned


splits目錄下存放的是中間結果,由于hi-C數據量很大,所以會將原始序列拆分成很多份,并行運算,加快速度。默認每份包含22.5M的reads, 當然這個可以通過-C參數調整,該參數指定拆分文件的行數,默認是90000000, 注意fastq文件4行代表一條序列,所以這個參數的值必須是4的倍數。拆分后序列的R1和R2端分別通過bwa比對基因組,然后合并,篩選嵌合體序列,去重復,生成預處理后的結果文件。

aligned目錄下存放的是最終結果,包含了可以導入juicebox的后綴為hic的圖譜文件, inter.hicinter_30.hic, 30表示通過MAPQ > 30進行過濾之后的結果。完整流程還會進行后續處理,包括識別TAD, 染色質環等結構。其中識別染色質環的HICCUPs算法必須通過GPU加速運行才可以,所以沒有安裝GPU卡的普通服務器無法運行這個步驟。

從上述過程可以看到,juicer的使用確實非常簡單。由于Hi-C數據的測序量非常大,以及后續分析算法的復雜度,對服務器計算資源的要求相當高,必須高性能服務器才能滿足要求,而該軟件所需的GPU卡成本也非常高,一塊的成本在2萬元左右,這些因素一定程度制約了Hi-C的普及和發展。

感謝你能夠認真閱讀完這篇文章,希望小編分享的“Juicer怎么用”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

扎赉特旗| 固阳县| 霍州市| 马边| 宾川县| 随州市| 凤台县| 岐山县| 泾川县| 泰兴市| 新龙县| 石台县| 武义县| 玉林市| 琼海市| 博湖县| 东城区| 中阳县| 九台市| 阿拉善左旗| 讷河市| 杭锦后旗| 北宁市| 长兴县| 诏安县| 南阳市| 临邑县| 衡东县| 板桥市| 红安县| 文安县| 碌曲县| 金门县| SHOW| 永兴县| 盖州市| 盐源县| 马边| 榆树市| 永新县| 雅安市|