中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用R語言XML包獲得html文件中的表格

發布時間:2021-07-10 14:35:19 來源:億速云 閱讀:244 作者:chen 欄目:大數據

本篇內容主要講解“如何用R語言XML包獲得html文件中的表格”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何用R語言XML包獲得html文件中的表格”吧!

 需求

使用snpEff軟件對vcf格式文件進行注釋后會生成一個snpEff_summary.html;這個文件是對vcf格式文件中的內容進行的統計,結果會以表格和圖片的形式在html文件里展示。我現在想把html中的數據提取出來,自己來做圖。

 參考文章
  • https://stackoverflow.com/questions/14517732/how-to-get-table-data-from-html-table-in-xml
    How to get table data from html table in xml

 使用R語言的 XML包

使用到的R語言代碼

library(XML)
doc<-htmlParse("snpEff_summary.html")
total_table<-getNodeSet(doc,"//table")

# 以上代碼是固定的寫法
# 下面的代碼想獲得第幾個表格,中括號中的數字就改成幾

df3<-readHTMLTable(total_table[[3]])
df3
class(df3)
 


  • 結果以數據框的形式存儲


 以上功能使用python的BeautifulSoup模塊應該也可以實現,如果有時間回頭看一下自己之前寫的利用python的BeautifulSoup模塊抓取火箭當家球星哈登數據的那篇筆記,爭取利用python的BeautifulSoup模塊也來實現一下本文提到的這個需求。
 另外vcftools工具只保留vcf文件中的二等位基因
vcftools --vcf input.vcf --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out output_vcf_prefix
 


  • vcftools的幫助文檔



 --min-alleles <integer>
 --max-alleles <integer>
Include only sites with a number of alleles greater than or equal to the "--min-alleles" value and less than or equal to  the  "--max-alleles" value. One of these options may be used without the other.
For example, to include only bi-allelic sites, one could use:
vcftools --vcf file1.vcf --min-alleles 2 --max-alleles 2




到此,相信大家對“如何用R語言XML包獲得html文件中的表格”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

巴青县| 石棉县| 华容县| 呼图壁县| 三台县| 图木舒克市| 九台市| 分宜县| 鄂托克前旗| 海淀区| 龙陵县| 广昌县| 申扎县| 仪征市| 凤凰县| 河池市| 阳新县| 渝中区| 门源| 南投县| 灵石县| 兴安盟| 桓仁| 都匀市| 灵璧县| 门源| 天祝| 尼木县| 顺昌县| 灵寿县| 兴仁县| 隆回县| 霍城县| 嘉兴市| 秦安县| 闽侯县| 景泰县| 来凤县| 金沙县| 辛集市| 霸州市|