中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python網絡爬蟲中正則表達式怎么用

發布時間:2021-09-27 10:43:09 來源:億速云 閱讀:117 作者:小新 欄目:開發技術

這篇文章主要介紹python網絡爬蟲中正則表達式怎么用,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

一、常見的匹配規則

python網絡爬蟲中正則表達式怎么用

二、常見的匹配方法

1、match()

match()方法從字符串的起始位置開始匹配,該方法有兩個參數,第一個是正則表達式,第二個是需要匹配的字符串;

re.match(正則表達式,字符串)

如果該方法匹配成功,返回的是SRE_Match對象,如果未匹配到,則返回None。

返回成功后有兩個方法,group()方法用來查看匹配到的字符串,span()方法用來輸出匹配的范圍。

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W\d\d\d\s\d{3}',content)
print(result)
print(result.group())
print(result.span())

【運行結果】

<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)

子字符串匹配

在上述我們匹配到了完整的字符串,但是實際需求中可能只需要其中的一部分,這時我們僅需要在要獲取的子字符串匹配時加上括號即可。

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W(\d+)\s(\d{3})',content)
print(result)
print(result.group())
print(result.span())
print(result.group(1))
print(result.group(2))

【運行結果】

<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)
123
456

這樣通過加括號的形式,將字符串中的數字匹配出來。

通用匹配符

.* 其中.用來匹配任意字符(除換行符),*代表前面出現的字符無限次。因此之前的匹配形式可以寫為:

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\.*456$',content)
print(result.group())

【運行結果】

Hello_World,123 456

貪婪匹配和非貪婪匹配

.*匹配是貪婪匹配

.*?是非貪婪匹配

二者的主要區別是,貪婪匹配盡可能多的去匹配字符,而非貪婪匹配是盡可能少的匹配字符。下列代碼能夠更直觀的了解二者之間的區別

import re
content = 'number 12345678 test'
result_1 = re.match('^number.*(\d+).*test$',content)
print('貪婪匹配得到的數字:' + result_1.group(1))
result_2 = re.match('^number.*?(\d+).*test$',content)
print('非貪婪匹配得到的數字:' + result_2.group(1))

【運行結果】

貪婪匹配得到的數字:8
非貪婪匹配得到的數字:12345678

大家會有這樣一個疑問為什么貪婪匹配得到的數字少,而非貪婪匹配得到的多,這與前面講的不太符合啊。

注意,在匹配的時候,貪婪匹配是盡可能多的去匹配字符,因此.*就匹配的是' 1234567‘,只留下8給\d+匹配,非貪婪匹配是盡可能少的匹配字符,故.*?匹配的是' ',留下12345678給\d+匹配,就會得到上述結果。

修飾符

修飾符作用
re.I忽略大小寫進行匹配
re.L做本地化識別匹配
re.M多行匹配,影響^和$
re.S使.匹配包含換行符在內的所有字符
re.U根據Unicode字符集解析字符
re.X更加靈活的編寫正則表達式

轉義匹配

匹配特殊字符時,在其前面加反斜線(\)完成轉義匹配。

2、search()

在匹配時會掃描整個字符串,然后返回第一個成功匹配的結果。如果將整個字符串搜索完了之后還是沒有匹配到,則返回None。

3、findall()

與search()不同的是,findall()方法是將返回所有符合正則表達式匹配的內容。返回結果是一個列表,列表中的每個元素都是元組類型。

4、sub()

修改文本內容,原理是對要修改的內容進行替換。

import re
temp = "abcdef123ghi456"
temp = re.sub("\d+","",temp)
print(temp)

【運行結果】

abcdefghi

sub()中的參數分析,第一個參數是正則表達式匹配要更改的內容,第二個參數是使用該參數內容進行替換,第三個參數是要更改的字符串。

5、compile()

將正則字符串編譯成正則表達式對象,以便在后面的匹配中進行復用。

以上是“python網絡爬蟲中正則表達式怎么用”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

黄骅市| 铜山县| 吕梁市| 从江县| 肃宁县| 伊金霍洛旗| 阳城县| 隆尧县| 甘肃省| 琼中| 广平县| 阿拉尔市| 宣化县| 仁怀市| 西丰县| 银川市| 汝南县| 赤城县| 明光市| 永德县| 定襄县| 望奎县| 长汀县| 德阳市| 洛隆县| 垣曲县| 黑山县| 新宁县| 阳春市| 屯昌县| 石嘴山市| 全南县| 屏南县| 河津市| 夏河县| 读书| 开远市| 东明县| 康保县| 汕尾市| 兴国县|