您好,登錄后才能下訂單哦!
導讀:2015 年,阿里云和華大基因立下一個目標:到 2020 年,要在 24 小時完成個人全基因組測序。這在當時是一個幾乎被認為不可能的挑戰。 而在 2020 年剛開始的第 17 天,我們就實現了這個目標!并且把個人全基因組測序分析做到只需要 15 分鐘,不到一頓飯的功夫。
圖 1 - WGS 分析過程示意圖
基因計算所面臨的挑戰不同于常規計算,大數據生信分析平臺需要具備 PB 級的數據處理能力:存儲與壓縮、清理及管理、低成本保存的能力;快速、安全的云端分發共享;基因數據的安全隱私保護、大規模數據挖掘;按需調度和彈性擴容等。
此次方案由華大 DNBSEQ 自主測序儀、BGI Online 混合云架構、阿里云容器服務 ACK/AGS 基因服務以及賽樂基因 GPU 加速算法的深度融合而成。其中,華大基因聯合阿里云的整體技術架構為云原生容器混合云,實現云上云下資源一體,跨地域集群統一管理。憑借云端的自動伸縮特性,實現大規模彈性調度計算。
在使用上,該方案用戶無需關心基因數據處理過程中的計算資源、處理邏輯、數據緩存等細節,只需將下機數據 (FASTQ文件) 上傳至 OSS,以及授權 Bucket 給 AGS 服務,即可高效、快速完成整個數據分析流程,并將結果數據上傳到用戶期望的存儲空間。
這套端到端解決方案,無縫銜接測序平臺和基因云平臺,全面支持包括 DNBSEQ 系列測序儀在內的多種測序平臺,可按需定制分析流程,交付靈活性極高。
相比同類產品,它在計算速度、精準度、成本、易用性、與上游測序儀的整合度上具有極大優勢,在 2020 年,新的 WGS 交付方案將會助力基因科研與臨床檢測再上一個新臺階。
經過實際測試,整套方案在 15 分鐘內完成了 8 組 30X WGS 樣本二級分析處理。在保證精度的前提下,實現 15 分鐘對 7200 億堿基拼裝、排序、去重、變異檢測,完成基因檢測全流程120倍加速。且經過 NA12878 測試數據集與金標準 VCF 比較,二級分析的精度高于或等于 BWA-0.7.17/GATK 4.1.3 的數據產出,SNP 精度到達 99.80%!
圖 2 - 實測 30X WGS N12878 數據加速效果
圖 3 - 30X WGS 軟件加速一致性
同時,
阿里云 ACK/AGS 提供云上 PaaS 加速能力,以混合云方式協助華大基因完成自主測序儀大批量下機數據分析的近實時交付,可有效降低分析計算成本,縮短該環節交付周期。
此前,線下進行單個樣本的 WGS 分析通常需要 70+ 小時;2016 年底,BGI Online(國際版)實現 17 小時完成 100 個 WGS 分析;2017 年底,時間降至 120 分鐘;到如今攜手阿里云,創下 15 分鐘完成 1 個 WGS 的新紀錄,BGI Online 再次刷新了全基因組分析的速度極限。
隨著精準醫學人群隊列項目的陸續啟動,我國自主可控的基因測序與分析平臺顯得愈發重要。BGI Online 將在未來繼續完善平臺功能,為用戶提供完整、全面、友好的功能體驗,使生物信息領域的研究更簡單高效。
解碼未知,丈量生命。科技的每一小步,都會成為人類前行的一大步。華大基因及 BGI Online 將繼續攜手合作伙伴,共同為基因事業貢獻力量。
注:人類全基因組測序(Whole Genome Sequencing,簡稱WGS)是利用高通量測序技術對人類不同個體或群體進行全基因組測序,并進行生物信息分析的方法。癌癥和遺傳疾病的深度解析往往需要對大量樣本進行 WGS 測序與分析,而且對 WGS 數據的挖掘還能發現非常多極具價值的遺傳多樣性信息。一個人類全基因組有 30 億堿基,一個 30X 的 WGS 測序數據量大約在 100G。
“ 阿里巴巴云原生關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦云原生流行技術趨勢、云原生大規模的落地實踐,做最懂云原生開發者的技術圈。”
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。