您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關plink PED文件格式是怎樣的,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
plink是進行全基因組關聯分析常用的軟件之一,該軟件需要兩種基本格式的輸入文件,ped
和map
。本篇重點介紹一下ped
格式。
對于ped
格式而言,包含了以下幾種信息
家系結構;
性別信息;
表型信息;
snp calling信息;
ped
格式是一個純文本的文件,至少需要6列,每列有空格或者\t
分隔。這6列
分別代表以下含義
Family ID
Individual ID
Paternal ID
Maternal ID
Sex
Phenotype
Family ID
用來表示家族,同一個家族用同一個family ID表示;Individual ID
用來表示個體,family ID
和Individual ID
連起來必須能夠唯一表示每個樣本;Paternal ID
表示父本ID, Maternal ID
表示母本ID, 通過以上4個屬性,可以完全表征樣本的家系結構信息。
Sex
表示性別, 1
代表male,2
代表female, 其他數字表示unknown。
phenotype
代表表型,其中表型可以是離散型的(比如質量性狀),也可以是連續型的(比如數量性狀),plink會自動識別對應的類型。通過以上6個必須的字段,可以完整的映射到某一性狀的家系圖上。
對于關聯分析而言,除了表型相關信息,還需要基因型信息。在ped
格式的文件中,剩余的列通常用來表示基因型信息。在ped
文件中,每個snp位點的基因型需要兩列來表示,分別表示major allel 和 minor allel。在表示基因型時,既可以使用A,C,G,T字母的形式,也可以采用1,2數字編碼的形式。默認情況下,用0
來表示基因型的缺失。
一個ped
文件的示例如下
1 1 0 0 1 1 A A G T 2 1 0 0 1 1 A C T G 3 1 0 0 1 1 C C G G 4 1 0 0 1 2 A C T T 5 1 0 0 1 2 C C G T 6 1 0 0 1 2 C C T T
在這個ped
文件中,所有樣本之間相互獨立,沒有親緣關系,所以每個樣本有一個唯一的family ID
;對于樣本而言,只需要family ID
和Individual ID
兩個字段的信息連起來,能夠唯一表示一個樣本即可,由于family ID
已經和樣本是一一對應關系了,所以這里的Individual ID
統一用1表示。
由于沒有親緣關系,Paternal ID
和Maternal ID
也沒有了意義,取值全都為0; 性別全部為1,表明所有樣本都為男性;phenotype
的取值有1和2兩種,是離散型的。最后的4列信息代表2個SNP位點的基因型信息,每兩列一個SNP位點。
以上就是plink PED文件格式是怎樣的,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。