中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

R語言進化樹構建方法及原理是什么

發布時間:2022-03-21 10:44:26 來源:億速云 閱讀:682 作者:iii 欄目:開發技術

本文小編為大家詳細介紹“R語言進化樹構建方法及原理是什么”,內容詳細,步驟清晰,細節處理妥當,希望這篇“R語言進化樹構建方法及原理是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學習新知識吧。

進化樹構建方法及原理

進化樹的構建

(1)數據準備
在進行系統發育分析時需要通過構建系統發育樹來描述不同物種或者基因之間的進化關系,通過同源DNA的核苷酸序列或者同源蛋白質分子的氨基酸序列可以實現構建進化樹的構建。
(3)序列比對
為了保證序列的同源性和所得系統發育關系的可靠性,需要對原始序列進行比對和校正。自動比對序列的軟件包括Clustalw 、MAFFT、MUSCLE等。
(4)保守區用于構建進化樹
保守區選擇是系統發育分析過程中一個重要的步驟。分析時可以選擇保守位點,也可以選擇基因全長序列,但是當序列差異大時,建議保留保守序列用于進化樹構建。常用的保留序列保守區的軟件有Gblock、MEME等。

進化樹構建方法的選擇

ML,Maximum likelihood最大似然法
NJ,Neighbor-Joining鄰接法
MP,Maximum parsimony最大簡約法
ME,Minimum Evolution最小進化法
Bayesian貝葉斯推斷
UPGMA不常用

第一種:UPGMA法(非加權配對算術平均法)

前提條件:在進化過程中,每一代發生趨異的次數相同,即堿基或氨基酸的替換速率是均等且恒等的。

UPGMA法計算原理和過程:

①以已求得的距離系數,所有比較的分類單元的成對距離構成一個t×t方陣,即建立一個距離矩陣M。

②對于一個給定的距離矩陣,尋求最小距離值Dpq。

③定義類群p和q之間的分支深度Lpq=Dpq/2。

④若p和q是最后一個類群,側聚類過程完成,否側合并p和q成一個新類群r。

⑤定義并計算新類群r到其他各類群i(i≠p和q)的距離Dir=(Dpi+Dqi)/2。

⑥回到第一步,在矩陣中消除p和q,加入新類群r,矩陣減少一階,重復進行直至達到最后歸群。

UPGMA法比較直觀和簡單,運算速度快,應用很廣。它的缺點在于當分子進化速率較大時,在建樹過程會引入系統誤差。

第二種:鄰接法NJ法(neighbor joining method)

是一種推論疊加樹的方法。在概念上與UPGMA法相同,但是有四點區別

a. NJ法不要求距離符合超度量特性,但要求數據應非常接近或符合疊加性條件,即該方法要求對距離進行校正。

b. 鄰接法在成聚過程中連接的是分類單元之間的節點(node),而不是分類單元本身。

c. NJ法中原始距離數據用于估算系統樹上所有端結分類單元之間的距離矩陣,校正后的距離用于確定節點之間的連接順序。

d. 在重建系統發育樹時,NJ法取消了UPGMA法所做的假定,認為在此進化分支上,發生趨異的次數可以不同。

① 對于給定距離矩陣中的每一端結i,用下式計算與其它分類單元之間的凈趨異量(Ri) (t:矩陣中的分類單元數)

② 建立一個速率校正距離矩陣M,其元素由下式確定:

③ 定義一個新節點u,u的三個分支分別與節點i,j和樹的其余部分相連,并且Dij為矩陣中距離最小者,u到節點i和j的分支長度定義為

④ 定義u到樹的其它節點k(k≠i和j外的所有節點)的距離:

⑤ 從距離矩陣中刪除i和j的距離,矩陣減少一階。

⑥ 如果矩陣仍然多于兩個的節點,重復第①-⑤步,否測除最外兩個節點的分支長度來確定外,樹上其余節點都確定,最后是剩余的2個的分支長度Sy=Dij

第三種:最大簡約法(Maximum Parsimony Method)

依據 基于奧卡姆(Ockham)哲學原則,這個原則認為:解釋一個過程的最好理論是所需假設數目最少的那一個。

方法 計算所有可能的拓撲結構 ,計算出所需替代數最小的那個拓撲結構,作為最優樹。

特點 用于分析如插入、缺失等序列。在分析序列上存在較多的回復突變或平行突變,而被檢驗的序列位點數又比較少的時候,最大簡約法可能會給出一個不合理的或者錯誤的進化樹推導結果。

第四種:最大似然法

依據:這個方法最早是遺傳學家以及統計學家羅納德·費雪爵士在 1912 年至1922 年間開始使用的 。基本思想是:當從模型總體隨機抽取n組樣本觀測值后,最合理的參數估計量應該使得從模型中抽取該n組樣本觀測值的概率最大,而不是像最小二乘估計法旨在得到使得模型能最好地擬合樣本數據的參數估計量。

方法:選取一個特定的替代模型來分析給定的一組序列數據,使得獲得的每一個拓撲結構的似然率都為最大值,然后再挑出其中似然率最大的拓撲結構作為最優樹(所以分析時間比較長)

特點:最大似然法具有很好的統計學理論基礎,是一個比較成熟的統計學方法。選擇合理的模型后,最大似然法可以推導出一個效果很好的進化樹結果。但是對于相似度很低的序列,NJ往往出現Long-branch attraction(LBA,長枝吸引現象),有時嚴重干擾進化樹的構建。

讀到這里,這篇“R語言進化樹構建方法及原理是什么”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

西青区| 台南县| 吉林市| 房产| 额尔古纳市| 时尚| 枣强县| 四平市| 大城县| 东海县| 新巴尔虎左旗| 大英县| 河池市| 鄱阳县| 福鼎市| 尚志市| 新巴尔虎左旗| 张家口市| 会泽县| 宁陵县| 库尔勒市| 扶绥县| 太原市| 罗定市| 鞍山市| 上蔡县| 宜兰县| 交口县| 桃江县| 东安县| 澄迈县| 肇源县| 福清市| 靖江市| 建宁县| 合肥市| 罗山县| 扬州市| 奇台县| 大姚县| 安仁县|