您好,登錄后才能下訂單哦!
chip_seq質量評估中的PCA分析是怎樣的,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
PCA我們稱之為主成分分析,是一種經典的數據降維算法,通過將高維數據用幾個主成分表示,從而將其映射到低維空間。在實際處理中,由于我們只能對二維和三維數據有直觀的感受,所以通常繪制二維和三維的散點圖。
PCA本質上屬于排序分析的一種,降維之后的數據在二維或者三維平面通過散點圖進行展示,兩個樣本點間的距離越接近,說明這兩個樣本越一致, PCA圖在生物信息學中應用的非常廣泛,該算法適用范圍廣泛,在基因組,轉錄組等多種數據分析中都有應用,本文主要介紹在chip_seq數據分析中的PCA分析。
在轉錄組中,我們可以通過基因表達譜來對樣本進行PCA分析,在chip_seq數據分析中,為了得到類似基因表達譜的數據,研究人員提出了一種思想,將基因組劃分為等長的區間,稱之為bin
,然后計算每個區間內的coverage。得到樣本中所有bin
的coverage之后,就可以利用該數據進行PCA分析。具體的操作步驟如下,通過deeptools來實現
輸入文件為比對基因組產生的bam文件,用法示意如下
multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
通過plotPCA
命令實現,用法示意如下
plotPCA \
-in results.npz \
-o PCA.png
輸出結果示意如下
軟件默認選擇第一和第二主成分來繪制二維的散點圖,在該圖中通過觀測樣本點之間的距離,可以對數據質量做出一些基本判斷,理論上講,input和抗體處理的樣本之間應該有較大距離,而生物學重復樣本之間應該比較接近。
需要注意的是,前兩個主成分的貢獻率是一個比較重要的指標,假設兩個主成分的貢獻率之和為90%, 意味著二維散點圖只能表征原始樣本90%的信息,當貢獻率太低時,散點圖上表示的信息和原始樣本的信息相去甚遠,就不具有太大的參考意義了。
下半部分的Scree plot
, 類似碎石圖,只不過采用了雙坐標軸的形式,藍色柱狀圖表征了前5個主成分的特征值,紅色曲線代表累計的特征值,每個點代表累計特征值的比例。當紅色曲線趨于平緩時,說明即使再添加后面其他的主成分,所展示的信息也不會有顯著變化了,即前幾個主成分已經可以有效代表總體的信息了,在上圖中,前4個主成分能夠有效代表總體的信息。
雖然通過碎石圖我們可以篩選出主成分,但是由于我們最多只能直觀觀察三維空間,所以PCA分析中最多只能繪制3維散點圖,如果前3個主成分不能有效代表總體的信息,我們只能考慮使用其他降維算法了,這個問題也是所有降維算法的一個通病。
看完上述內容,你們掌握chip_seq質量評估中的PCA分析是怎樣的的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。