您好,登錄后才能下訂單哦!
小編給大家分享一下motif中PWM矩陣的示例分析,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!
通過一致性序列和sequence logo可以直觀的表示某個motif的情況,但是在預測motif結合的位點時,只根據這些信息無法準確的判斷查詢序列上存在對應的motif。 預測輸入序列上是否存在特定motif的位點的分析,稱之為motif scanning, 示意如下
就是在輸入序列上查找特定motif出現的位置。為了滿足motif scanning分析的要求,對于motif而言,我們必須提供一個有效的能夠代表motif又能夠用于序列查找的一個信息,基于這樣的出發點,提出了PWM矩陣的概念。
PWM矩陣在不同文章中有不同的叫法,以下3種矩陣其實都是PWM矩陣
position weight matrix(PWM)
position-specific weight matirx(PSWM)
position-specific scoring matrix(PSSM)
PWM矩陣是在PFM矩陣的基礎上發展而來,以下圖所示PFM矩陣為例
根據堿基頻數分布矩陣首先計算出堿基頻率分布矩陣,稱之為position probability matrixa, 簡寫為PPM矩陣,示意如下
在PPM矩陣中,堿基的頻率被當做概率來使用,不同位置之間可以看做是一個獨立事件。根據PPM矩陣,可以計算某個motif序列的概率。根據上述PPM矩陣,GAGGTAAAC
出現的概率為
在PPM矩陣基礎上,用背景序列的堿基分布頻率來校正對應的值,就可以得到PWM矩陣,公式如下
就是將PPM矩陣中對應的值除了背景序列中對應堿基的頻率,然后在取log2對數值。大多數情況下,我們認為在基因組上A,T,C,G這4種堿基的含量是相等的,所以每個堿基的背景頻率就是0.25。以PPM矩陣第一行的0.3
為例,首先將0.3除以背景序列中A堿基的頻率0.25,然后在取log2對數,最終的取值越為0.26。
通過這種方式就構建出了如下所示的PWM矩陣
需要注意的是,背景序列中堿基的概率不是都為0.25, 在某些GC含量偏高或者偏低的物種中,4種堿基的分布頻率是不相等的,此時就要根據真實的堿基分布來確定背景序列中的堿基頻率。
根據PWM矩陣,可以對序列進行打分,以最終的得分值來判斷是否為一個潛在的motif。根據上述PWM矩陣,GAGGTAAAC
出現的得分值為
score >= 0, 說明這個序列是一個潛在的功能位點,score < 0, 說明是一個隨機序列。根據PWM矩陣,可以有效的判斷在輸入序列中是否存在真實的motif位點。
看完了這篇文章,相信你對“motif中PWM矩陣的示例分析”有了一定的了解,如果想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。