python怎么找出某個關鍵字出現的次數

發布時間：2022-01-17 15:23:58 來源：億速云閱讀：716 作者：iii 欄目：大數據

今天小編給大家分享一下python怎么找出某個關鍵字出現的次數的相關知識點，內容詳細，邏輯清晰，相信大部分人都還太了解這方面的知識，所以分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后有所收獲，下面我們一起來了解一下吧。

題目：如何根據URL對應的網頁中查找出某個關鍵字出現的次數，例如 “https://www.ershicimi.com/” 網頁中出現 “python”次數是多少？

首先我們對問題進行分解，第一步是想辦法拿到網頁里面的內容，這個很簡單，用requests庫就能做到。第二步就是對數據進行清洗，去除html標簽提取文本內容，可以使用 BeautifuSoup，也可以用 Requests-html 來解決，Python大法好，輪子多。第三步根據文本中出現的關鍵字進行統計。

前兩步下先忽略，我們重點討論第三步。

想獲取關鍵字出現的次數有3種方式，具體看你自己的需求，一種就是使用字符串提供的API方法 string.count()，這個最簡單，直接返回出現的次數。例如：

>>> "我關注了你，你關注了我".count("關注")
2

不過這種方式有個局限性，如果你想知道關鍵字出現的位置在哪里，這個實現不了，你需要使用第二種方法，這種方式就是正則表達式，正則可以說是處理字符串最強大的工具沒有之一。沒有涉及到字符操作，一定不要把正則忽略了。

>>> for m in re.finditer("(關注)", "我關注了你，你關注了我"):
...     print(m.start())
...
1
7

使用 match 對象的start()方法可以知道匹配字符出現的所在位置。這個例子告訴我們關鍵字出現的位置在第1個和第7個。

如果這還不夠，你想知道出現頻率最高的單詞，如果是英文好說，根據空格將單詞分隔再逐個統計，使用 collections.Counter 模塊就能實現，但是中文不行，中文詞語之間是沒有空格的，所以需要用到中文分詞工具將句子進行切分。jieba分詞是比較常用的。

import jieba
from collections import Counter

def get_words(txt):
    seg_list = jieba.cut(txt)
    c = Counter()
    for x in seg_list:
        if len(x)>1 and x != '\r\n':
            c[x] += 1
    print('詞頻統計')
    for (k,v) in c.most_common(100):
        print(f'{k}: {v}')

以上就是“python怎么找出某個關鍵字出現的次數”這篇文章的所有內容，感謝各位的閱讀！相信大家閱讀完這篇文章都有很大的收獲，小編每天都會為大家更新不同的知識，如果還想學習更多的知識，請關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python怎么找出某個關鍵字出現的次數

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python怎么找出某個關鍵字出現的次數

猜你喜歡

最新資訊

相關推薦

相關標簽