您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關XHMM分析原理是怎樣的,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。
XHMM是一款利用WES數據分析CNV的軟件,利用PCA降維來歸一化外顯子區的測序深度信息,然后通過隱馬可夫模型來預測CNV,該軟件的pipeline示意如下
可以分成4個大的步驟
將測序的reads比對到參考基因組上,計算外顯子區的原始測序深度。CNV預測的核心是通過測序深度和cnv的相關性來建模,所以需要保證這里的測序深度和真實DNA拷貝數的一致性,需要去除PCR重復。
官方推薦使用GATK最佳實踐中的預處理流程, 同時還可以添加一個MAPQ的過濾,篩選MAPQ大于20的alignemnts,得到可以用于下游分析的bam文件。
計算每個樣本各個外顯子的平均測序深度,得到一個exon平均測序深度的矩陣,示意如下
每一行為一個樣本,每一列為一個eoxn區域,對應的值為該exon區域在樣本內的平均測序深度。
在歸一化之前,可以先對這個矩陣進行一個預處理,即對樣本或者目標區域進行過濾。對于目標區域,去除GC含量小于0.1或者大于0.9的目標區域,去除包含10%以上的低復雜度序列的目標區域,也可以根據測序深度進行過濾,去除過低或者過高的目標區域,比如去除測序深度小于5X的目標區域;對于樣本,可以根據測序深度的分布進行分析,去除離群的樣本。
預處理的目的是盡量保證用于后續分析的樣本在測序深度分布上的均一性,減小樣本間的偏差。預處理之后就可以進行歸一化,考慮到GC含量帶來的PCR偏倚,芯片捕獲,mapping準確率等系統誤差的影響,采用PCA算法來去除系統噪聲,得到歸一化之后的測序深度。
效果如下圖所示
左側為原始的測序深度,右側為歸一化之后的測序深度,每條線代表一個樣本的測序深度值,灰色區域表示正常的二倍體,綠色區域表示拷貝數增加,歸一化之后二者區分的更加顯著。
將CNV在全基因組范圍內分布的比例,長度,exon之間的距離等因素都考慮進來,構建了隱馬可夫模型, 將染色體區域分為以下3種類型
diploid
deletion
duplication
第一種代表拷貝數正常,為2拷貝,對應的測序深度為平均值,即baseline, 第二種代表缺失,小于2拷貝,測序深度低于平均值,第三種代表重復,大于2拷貝,測序深度高于平均值。
隱馬可夫模型中3種狀態之間的轉移概率矩陣如下所示
模型訓練好之后,對于每個樣本,通過維特比算法來分析染色體區域的拷貝數狀態,從而檢測CNV。
看完上述內容,你們對XHMM分析原理是怎樣的有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。