中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么使用rmats進行可變剪切的分析

發布時間:2021-11-10 16:51:39 來源:億速云 閱讀:302 作者:柒染 欄目:大數據

本篇文章給大家分享的是有關怎么使用rmats進行可變剪切的分析,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。


rmats是目前使用的最廣泛的可變剪切分析軟件,該軟件不僅可以識別可變剪切事件,還提供了定量和組間差異分析的功能,功能強大。該軟件前后經歷了多個版本,目前最新版本為v4.0.2, 相比之前的版本,v4.0之后的版本在運行速度,內存消耗,磁盤占用等方面進行了優化,最明顯的就是運行速度,比之前快了100多倍。

安裝也很簡單,直接下載解壓縮即可使用,這里不贅述。rmats可以識別以下五種類型的可變剪切事件

怎么使用rmats進行可變剪切的分析

軟件的基本用法如下

python rmats.py  \
--b1 b1.txt --b2 b2.txt \
--gtf ref.transcript.gtf \
--od out_dir \
-t paired \
--readLength 101 \
--cstat 0.1 \
--libType fr-unstranded

b1.txt中保存的是每個樣本比對參考基因組的bam文件的路徑,示例如下

/bams/rep1.bam,/bams/rep2.bam

這種用法從bam文件開始,實用性更強,除此之外,也支持從fastq文件開始,用法如下

python rmats.py \
--s1 s1.txt --s2 s2.txt \
--gtf ref.transcript.gtf \
--bi /STARindex/hg19 \
--od out_dir \
-t paired \
--nthread 6 \
--readLength 151

S1.txt中保存的是每個樣本fastq文件的路徑,rmats會自動調用STAR進行比對,bi參數指定參考基因組STAR的索引,更多參數和細節請參考官方文檔。

rmats中核心功能就是定量和差異分析,解釋如下

1. 定量

rmats采用exon inclusion level 來定義樣本中可變剪切事件的表達量,以外顯子跳躍為例,正常的isoform稱之為Exon Inclusion Isofrom, 發生了外顯子跳躍的轉錄本稱之為Exon Skipping Isofrom, 示意如下

怎么使用rmats進行可變剪切的分析

比對到inclusion  isoform上的reads用I表示,比對到skipping isoform上的reads用S表示, 則該外顯子跳躍的可變剪切事件的表達量如下

怎么使用rmats進行可變剪切的分析

可以看到,exon inclusion level實際上是inclusion isofrom所占的比例,計算時,用長度校正了原始的reads數。其他類型的可變剪切事件也可以劃分成上述兩種isoform, 示意圖如下

怎么使用rmats進行可變剪切的分析

可以看到,rmats在計算isofrom的長度時,提供了兩種方式,二者的區別就在于是否考慮跳過的exon的長度,詳細的公式在上圖中共也有給出。

2. 差異分析

rmats 在差異分析時,比較的就是兩組樣本中inclusion level的差異,給定閾值c,  判斷兩個樣本中對應inclusion level 的是否發生了變化,公式如下

怎么使用rmats進行可變剪切的分析

c這個閾值通過--cstat參數自定義,取值范圍為0-1,代表的是兩個樣本中inclusion level的差值,0.1表示兩個樣本中該可變剪切事件的inclusion level相差10%。當然,實際計算過程是非常繁瑣的,需要考慮數據的分布,對應的統計模型等各種因素,最終會給出每個可變剪切事件的p值和多重假設檢驗校正后的FDR值。

在輸出目錄下,有很多的文件,我們重點關注其中兩種文件即可。

  1. AS_Event.MATS.JC.txt

  2. AS_Event.MATS.JCEC.txt

這里的AS_Event對應五種不同類型的可變剪切事件,每種類型是一個單獨的文件,而JCJCEC對應的是isoform effective length的兩種計算方式。由于兩種計算方式沒有絕對的孰優孰劣的區分,所以同時給出兩種結果,在這些文件中,包含了定量和差異的結果

怎么使用rmats進行可變剪切的分析

IJC表示inclusion isoform counts, SJC表示是skipping isoform counts, 生物學重復樣本用逗號分隔;IncFormLen代表effective inclusion isoform length, SkipFormLen代表effective inclusion isoform length;lencLevel代表定量的結果,InclevelDifference就是兩組樣本中表達量的差值,通過PvalueFDR可以對結果進行過濾和篩選。

除了定量和差異的結果,還給出了每種可變剪切事件對應的exon的區間信息,示意如下

怎么使用rmats進行可變剪切的分析

以上示例是外顯子跳躍中的區間信息,其他類型的表頭會有一定差異,但是意思是一樣的。

rmats中,識別可變剪切是以exon為單位的,只需要比較鄰近的3到4個exon的表達情況,就可以確定一個可變剪切事件是否發生,這個思路從可變剪切最核心的地方,即exon的變化出發進行分析,直接有效,但是由于其對問題的高度抽象和簡化,導致對應的結果看起來不夠直觀。

以上就是怎么使用rmats進行可變剪切的分析,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

临江市| 石泉县| 新化县| 兴义市| 呼和浩特市| 鱼台县| 阿拉善右旗| 永泰县| 绍兴县| 汤原县| 鄂伦春自治旗| 杭锦旗| 甘洛县| 石首市| 岐山县| 樟树市| 达尔| 井研县| 江华| 五莲县| 康平县| 阳高县| 福鼎市| 炎陵县| 博罗县| 新郑市| 文成县| 阿拉尔市| 任丘市| 渭南市| 水城县| 萨嘎县| 阿尔山市| 乌兰浩特市| 丰台区| 泸水县| 沛县| 长宁县| 河北省| 高邮市| 凤翔县|