您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關CNVnator的原理是什么,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
1.比對參考基因組
要計算測序深度,首先需要將測序的reads比對到參考基因組上,比對是最關鍵的一個步驟就是如何比對到基因組多個區域的reads。當一條reads比對到基因組上的多個位置時,單從數據分析的角度,是完全無法區分其究竟屬于哪一個區域的,因為這些區域同源度非常的高。對于這樣的reads, 有兩種處理策略,第一種是直接剔除,保留unque-mapping的reads; 第二種是隨機選取其中的一個位置,作為該reads的真實比對位置,cnvnator算法采用的是第二種策略。
比對之后,就可以將基因組劃分為等長窗口,計算每個窗口內的測序深度了,這里需要注意的是, 利用gc含量在校正原始的測序深度。PCR對不同GC含量序列的擴增存在偏倚,所以在計算窗口內的RD signal, 需要校正這一系統誤差,cnvnator的校正公式如下
global表示所有bin
窗口內原始RD signal的平均值,gc表示和當前bin
的GC含量相同的所有bin
窗口原始RD signal的平均值,將二者的比值作為一個系數,對原始的RD signal進行校正。
mean-shift是一種聚類算法,利用校正之后的RD signal值,對鄰近的bin
進行聚類,理論上聚為一類的bin
具有相同的cnv拷貝數,圖示如下
需要注意的是,這里只是對染色體位置接近的bin
進行聚類,并不是等同于CNV分析中的segmentation。
上述的聚類信號只有在染色體的局部具有意義,當放到大全基因組范圍來識別CNV時,必須通過segmentation算法來實現,cnvnator采用的是自己獨特的算法,有個關鍵的參數稱之為bandwidth, 不同的取值會影響到CNV區域的劃分,圖示如下
取值越大,小片段的CNV信號會被掩蓋,取值越小,數值越小,CNV檢測的假陽性率會高。
根據與鄰近segment RD signal的差異, 將原始劃分的segment進行合并。
對劃分好的不同segment, 預測其對應的拷貝數。
在利用CNVnator軟件進行分析時,bin和bandwidth兩個參數的選擇對結果影響很大。通過該軟件可以檢測各種長度的cnv, 而且分型的準確率非常高,是一款值得推薦的cnv檢測軟件。
上述就是小編為大家分享的CNVnator的原理是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。