中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

chip_seq質量評估中的PCA分析是怎樣的

發布時間:2021-12-28 14:21:47 來源:億速云 閱讀:210 作者:柒染 欄目:大數據

chip_seq質量評估中的PCA分析是怎樣的,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

PCA我們稱之為主成分分析,是一種經典的數據降維算法,通過將高維數據用幾個主成分表示,從而將其映射到低維空間。在實際處理中,由于我們只能對二維和三維數據有直觀的感受,所以通常繪制二維和三維的散點圖。

PCA本質上屬于排序分析的一種,降維之后的數據在二維或者三維平面通過散點圖進行展示,兩個樣本點間的距離越接近,說明這兩個樣本越一致, PCA圖在生物信息學中應用的非常廣泛,該算法適用范圍廣泛,在基因組,轉錄組等多種數據分析中都有應用,本文主要介紹在chip_seq數據分析中的PCA分析。

在轉錄組中,我們可以通過基因表達譜來對樣本進行PCA分析,在chip_seq數據分析中,為了得到類似基因表達譜的數據,研究人員提出了一種思想,將基因組劃分為等長的區間,稱之為bin,然后計算每個區間內的coverage。得到樣本中所有bin的coverage之后,就可以利用該數據進行PCA分析。具體的操作步驟如下,通過deeptools來實現

1. 計算bin的coverage

輸入文件為比對基因組產生的bam文件,用法示意如下

multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
2. PCA分析

通過plotPCA命令實現,用法示意如下

plotPCA \
-in results.npz \
-o PCA.png

輸出結果示意如下

chip_seq質量評估中的PCA分析是怎樣的

軟件默認選擇第一和第二主成分來繪制二維的散點圖,在該圖中通過觀測樣本點之間的距離,可以對數據質量做出一些基本判斷,理論上講,input和抗體處理的樣本之間應該有較大距離,而生物學重復樣本之間應該比較接近。

需要注意的是,前兩個主成分的貢獻率是一個比較重要的指標,假設兩個主成分的貢獻率之和為90%, 意味著二維散點圖只能表征原始樣本90%的信息,當貢獻率太低時,散點圖上表示的信息和原始樣本的信息相去甚遠,就不具有太大的參考意義了。

下半部分的Scree plot, 類似碎石圖,只不過采用了雙坐標軸的形式,藍色柱狀圖表征了前5個主成分的特征值,紅色曲線代表累計的特征值,每個點代表累計特征值的比例。當紅色曲線趨于平緩時,說明即使再添加后面其他的主成分,所展示的信息也不會有顯著變化了,即前幾個主成分已經可以有效代表總體的信息了,在上圖中,前4個主成分能夠有效代表總體的信息。

雖然通過碎石圖我們可以篩選出主成分,但是由于我們最多只能直觀觀察三維空間,所以PCA分析中最多只能繪制3維散點圖,如果前3個主成分不能有效代表總體的信息,我們只能考慮使用其他降維算法了,這個問題也是所有降維算法的一個通病。

看完上述內容,你們掌握chip_seq質量評估中的PCA分析是怎樣的的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

阳曲县| 额尔古纳市| 稻城县| 都匀市| 瑞昌市| 汉源县| 康定县| 聊城市| 新河县| 韶关市| 泗水县| 东港市| 新晃| 浦江县| 竹北市| 黑河市| 汕头市| 科尔| 繁峙县| 固始县| 夏津县| 衡阳县| 镇巴县| 遵义县| 合川市| 郁南县| 高唐县| 广平县| 都安| 平江县| 望江县| 乳源| 阳西县| 磐安县| 元朗区| 洛宁县| 巴马| 临沭县| 横山县| 宿松县| 丹棱县|