中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何獲取指定開頭指定結尾所夾中間內容

發布時間:2023-02-24 17:23:26 來源:億速云 閱讀:122 作者:iii 欄目:開發技術

本篇內容介紹了“Python如何獲取指定開頭指定結尾所夾中間內容”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

需求

獲取文章中指定開頭、指定結尾中所夾的內容。其中,開頭和結尾均有多種,但最多也就十幾種,所以代碼還是具有可行性的。

例:

X X 市 人 民 檢 察 院 指 控 : ‾ \underline{XX市人民檢察院指控:} XX市人民檢察院指控:被告人XXX與被害人YYY(女,歿年41歲,系XXX妻子)因家庭矛盾多次發生爭執。X年Y月Z日早晨,被告人XXX在X市X市場…被告人XXX為偏執性精神障礙,具有限制刑事責任能力。
公 訴 機 關 認 為 ‾ \underline{公訴機關認為} 公訴機關認為,被告人XXX故意非法剝奪他人生命,致一人死亡,其行為應以故意殺人罪追究刑事責任

所需內容為:第一個下劃線到第二個下劃線中間的內容,即“被告人XXX…責任能力。”。其中,“檢察院指控”是指定開頭,“公訴機關認為”是指定結尾。

解決方案

原本想著NLP有沒有現成的庫可以直接調包,后來搜了半天沒搜到,然后看到了正則表達式(真香)。

代碼

低配方法:

適用于只有一種固定開頭和結尾,多種就不行了

import re
def GetMiddleStr(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段,‘.'只能匹配除了'\n'外所有單個字符
    patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr)
#     patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小寫 ,這個適用于英文文章
    middleStr= re.match(patternStr,content)
    if middleStr:
        return middleStr.group(1)

中配方法:

適用于多種固定開頭和結尾,不過是蠻力法,可以優化判斷,減少循環次數

import re
def GetMiddleStr2(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
    goalStr = str('')
    
    for sStr in startStr:
        for eStr in endStr:
            patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr)
            middleStr= re.match(patternStr,content)
            if middleStr:
                if not goalStr: # 判斷 空 時候的值
                    goalStr = middleStr.group(1)
                else:        # 非空時,將將短的留下來 
                    goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr
                    
    return goalStr

運行效果

content='且得到被害人家屬諒解。綜上,建議法庭對被告人XXX減輕處罰。經審理查明:被告人XXX與被害人YYY因家庭矛盾多次發生爭執。X年Y月Z日清晨,被告人XXX在X市X市場......被告人XXX為偏執性精神障礙,具有限制刑事責任能力。公訴機關認為,被告人XXX故意非法剝奪他人生命,致一人死亡,其行為應以故意殺人罪追究刑事責任'
startStr = '經審理查明:'
endStr = '公訴機關認為,'
print(GetMiddleStr(content,startStr,endStr))

Python如何獲取指定開頭指定結尾所夾中間內容

第二種運行時將startStr和endStr分別賦值為:[‘AAA’,‘BBB’,…],即可
例如:
startStr = [‘審理查明:’,‘審理查明:’,‘檢察院指控’]
endStr = [‘經鑒定’,‘經鑒定,’, ‘歸案后’]

代碼講解

正則表達式查一下手冊即可:
.*:除了’\n’以外所有字符重復多次
[\s\S]:空白字符或者非空白字符,即所有字符(一個集合∪它在全集中的補集,即全集)
其余查一下手冊就ok

“Python如何獲取指定開頭指定結尾所夾中間內容”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

云龙县| 东台市| 尤溪县| 蒙山县| 定西市| 马公市| 江达县| 泸定县| 丹寨县| 黎川县| 班玛县| 江陵县| 清水河县| SHOW| 曲靖市| 台州市| 榆中县| 疏附县| 东乡| 蓝山县| 麻栗坡县| 靖远县| 永济市| 石城县| 天柱县| 神木县| 林周县| 曲靖市| 丹寨县| 尉氏县| 漳浦县| 慈利县| 克山县| 东光县| 会宁县| 荣昌县| 安化县| 天津市| 泸西县| 依安县| 贞丰县|