您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關在xpath中text()和string(.)的區別有哪些,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
我們在進行爬蟲時候,經常會遇到如下這樣的頁面:
你好,北京
在日常抓取的時候,遇到更多的情況是抓取中的你好,這時使用xpath("//div/em/text()")就可以提取到。
現在我們考慮下面兩種抓取需求:
需求1:我們想要提取“,北京”的時候,這個時候該用text(),還是string(.)?
需求2:提取 “你好,北京”呢?
我們先使用lxml庫對頁面進行一下初始化(如果你用的是scrapy的xpath選擇器,也可以按照以下步驟運行):
from lxml import etree
with open('foo.html', 'r') as f:
content = f.read().encode('utf8')
page = etree.HTML(content)
這里我們先看一下需求1的解法,也就是提取“,北京”:
re = page.xpath("//div/text()")
這里re得到的是一個數組:
這是因為在頁面中標簽
和之間是有換行符號的,因此使用"//div/text()"后會忽略掉你好,而剩下"\n",“,北京\n”兩個元素。
我們取re的第二個元素,然后去掉結尾的換行符"\n"(如果你使用的是scrapy的xpath,這里re得到的可能不是一個數組):
re = re[1].strip()
這個時候得到的re就是我們需要的",北京"了。
現在看一下第二個需求:提取"你好,北京":
這里就要求里面的文本也要提取出來了,這時候我們使用string:
re = page.xpath("//div")[0].xpath("string(.)")
這時來看下re的值(同樣如果你使用的是scrapy的選擇器,scrapy_selector.xpath("//div")返回的結果可能不是一個數組,不過你只要取到結果然后再使用.xpath("string(.)")即可。):
得到的一整串文本" \n 你好,北京\n "。
看來使用"string(.)"后,xpath會把里的內容也直接提取出來,而不像上面中"text()"那樣把都去掉后,再分割成一個數組。這里注意使用string()時候要把string(.)放在一個xpath中,而不是寫成"//div/string(.)"這樣,否則會抓取不到。
然后,同樣的再去除一下兩邊多余的空格和換行符
re = re.strip()
這個時候re得到就是”你好,北京“啦。
總結:無錫人流醫院 http://www.0510bhyy.com/
通過上述的實驗,我們發現xpath里面text()只會取當層節點的文本并按照當層的tag進行分割,組成列表。而string(.)會把當層節點以及當層節點以下的所有文本都提取出來,放在一個字符串變量中。
實例代碼:
test.py:
# coding=utf-8
from lxml import etree
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
class Test(object):
def __init__(self):
with open('foo.html', 'r') as f:
content = f.read().encode('utf8')
self.page = etree.HTML(content)
print self.page
def xpath_text(self):
re = self.page.xpath("//div/text()")
print re
re = re[1].strip()
print re
return re
def xpath_string(self):
re = self.page.xpath("//div")[0].xpath("string(.)")
print re
# 替換換行符等
re = re.strip(re)
print re
return re
if __name__ == "__main__":
t = Test()
assert t.xpath_text() == u",北京"
assert t.xpath_string() == u"你好,北京"
foo.html:
你好,北京
關于“在xpath中text()和string(.)的區別有哪些”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。