中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python爬蟲,使用BeautifulSoup解析頁面結果

發布時間:2020-07-19 23:21:09 來源:網絡 閱讀:437 作者:移望yuan 欄目:編程語言

Python爬蟲,使用BeautifulSoup可以輕松解析頁面結果,下面是使用該方法爬取boss頁面的職位信息:包括職位名稱、薪資、地點、公司名稱、公司融資情況等信息。通過這個示例可以輕松看到BeautifulSoup的使用方法。

import requests
from bs4 import BeautifulSoup
from middlewares import get_random_proxy,get_random_agent
import time

class Boss_Spider(object):
    def __init__(self, page=3):
        self.proxies = []
        self.verify_pro = []
        self.page = page
        self.headers = {}

    #第一步:獲取首頁所有招聘連接
    def Parse_pre(self):
        base_url = 'https://www.zhipin.com/'
        headers = get_random_agent()
        proxy = get_random_proxy()
        time.sleep(1)
        resp = requests.get(base_url, headers=headers)
        if resp.status_code == 200:
            soup = BeautifulSoup(resp.text, 'lxml')
            for job_menu in soup.find_all(class_='menu-sub'):
                for li in job_menu.find_all('li'):
                    job_type = li.find('h5').get_text()
                    for job_list in li.find_all('a'):
                        job_sub = job_list.get_text()
                        job_uri = job_list['href']
                        for i in range(0,11):
                            job_url = base_url + job_uri + '?page=%d&ka=page-%d' %(i,i)
                            requests.get(job_url,headers=headers,proxies=proxy)
                            meta = {
                                'job_type': job_type,
                                'job_sub': job_sub,
                            }
                            self.Parse_index(meta=meta,url=job_url)
    #爬取具體頁數據
    def Parse_index(self,meta,url):
        headers = get_random_agent()
        proxy = get_random_proxy()
        time.sleep(1)
        resp = requests.get(url, headers=headers)
        if resp.status_code == 200:
            soup = BeautifulSoup(resp.text, 'lxml')
            print(soup)
            for li in soup.find(class_='job-list').find_all('li'):
                print('###########')
                position = li.find(class_='job-title').get_text()
                salary = li.find(class_='red').get_text()
                add = li.find('p').get_text()
                need = li.find('p').find('em').get_text()
                company_name = li.find(class_='company-text').find('a').get_text()
                tag = li.find(class_='company-text').find('p')
                print(position,"$$$",salary,"$$$",add,"$$$",need,"$$$",company_name,"$$$",tag)

if __name__ == '__main__':
    b = Boss_Spider()
    b.Parse_pre()

運行輸出結果如下:
后端開發 $$$ 15-30K $$$ 北京 朝陽區 朝外3-5年本科 $$$ $$$ 米花互動 $$$ 游戲不需要融資20-99人
###########
后端開發工程師 $$$ 35-55K $$$ 北京 朝陽區 望京經驗不限本科 $$$ $$$ 云賬戶 $$$ 移動互聯網C輪100-499人
###########

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

隆林| 铜山县| 秦皇岛市| 苗栗市| 阳原县| 牡丹江市| 松江区| 兴隆县| 孝义市| 城步| 泸州市| 陆河县| 通河县| 三穗县| 唐河县| 兰西县| 安国市| 永州市| 阜新| 金湖县| 郴州市| 乌拉特中旗| 怀集县| 海原县| 张北县| 玉环县| 土默特右旗| 金乡县| 兴文县| 庆城县| 普宁市| 化州市| 象山县| 科技| 民丰县| 甘洛县| 济宁市| 辽阳县| 城固县| 兴国县| 循化|