中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么用Python實現崗位分析報告

發布時間:2023-03-22 09:26:04 來源:億速云 閱讀:105 作者:iii 欄目:開發技術

本篇內容介紹了“怎么用Python實現崗位分析報告”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

一、本文目標

獲取 Ajax 請求,解析 JSON 中所需字段

數據保存到 Excel 中

數據保存到 MySQL, 方便分析

二、分析結果

1.引入庫

五個城市 Python 崗位平均薪資水平

2.頁面結構

我們輸入查詢條件以 Python 為例,其他條件默認不選,點擊查詢,就能看到所有 Python 的崗位了,然后我們打開控制臺,點擊網絡標簽可以看到如下請求:

怎么用Python實現崗位分析報告

從響應結果來看,這個請求正是我們需要的內容。后面我們直接請求這個地址就好了。從圖中可以看出 result 下面就是各個崗位信息。

到這里我們知道了從哪里請求數據,從哪里獲取結果。但是 result 列表中只有第一頁 15 條數據,其他頁面數據怎么獲取呢?

3.請求參數

我們點擊參數選項卡,如下:

發現提交了三個表單數據,很明顯看出來 kd 就是我們搜索的關鍵詞,pn 就是當前頁碼。first 默認就行了,不用管它。剩下的事情就是構造請求,來下載 30 個頁面的數據了。

4.構造請求 解析數據

構造請求很簡單,我們還是用 requests 庫來搞定。首先我們構造出表單數據

data = {'first': 'true', 'pn': page, 'kd': lang_name}

之后用 requests 來請求url地址,解析得到的 JSON 數據就算大功告成了。由于拉勾對爬蟲限制比較嚴格,我們需要把瀏覽器中 headers 字段全部加上,而且把爬蟲間隔調大一點,我后面設置的為 10-20s,然后就能正常獲取數據了。

import requests

def get_json(url, page, lang_name):
   headers = {
       'Host': 'www.lagou.com',
       'Connection': 'keep-alive',
       'Content-Length': '23',
       'Origin': 'https://www.lagou.com',
       'X-Anit-Forge-Code': '0',
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
       'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
       'Accept': 'application/json, text/javascript, */*; q=0.01',
       'X-Requested-With': 'XMLHttpRequest',
       'X-Anit-Forge-Token': 'None',
       'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
       'Accept-Encoding': 'gzip, deflate, br',
       'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
   }
   data = {'first': 'false', 'pn': page, 'kd': lang_name}
   json = requests.post(url, data, headers=headers).json()
   list_con = json['content']['positionResult']['result']
   info_list = []
   for i in list_con:
       info = []
       info.append(i.get('companyShortName', '無'))
       info.append(i.get('companyFullName', '無'))
       info.append(i.get('industryField', '無'))
       info.append(i.get('companySize', '無'))
       info.append(i.get('salary', '無'))
       info.append(i.get('city', '無'))
       info.append(i.get('education', '無'))
       info_list.append(info)
   return info_list

4.獲取所有數據

了解了如何解析數據,剩下的就是連續請求所有頁面了,我們構造一個函數來請求所有 30 頁的數據。

def main():
   lang_name = 'python'
   wb = Workbook()
   conn = get_conn()
   for i in ['北京', '上海', '廣州', '深圳', '杭州']:
       page = 1
       ws1 = wb.active
       ws1.title = lang_name
       url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
       while page < 31:
           info = get_json(url, page, lang_name)
           page += 1
           import time
           a = random.randint(10, 20)
           time.sleep(a)
           for row in info:
               insert(conn, tuple(row))
               ws1.append(row)
   conn.close()
   wb.save('{}職位信息.xlsx'.format(lang_name))

if __name__ == '__main__':
   main()

“怎么用Python實現崗位分析報告”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

都匀市| 三原县| 卓尼县| 当涂县| 眉山市| 黄梅县| 民县| 丹东市| 丰原市| 舞钢市| 涿州市| 城固县| 江北区| 宁德市| 翁牛特旗| 尼木县| 元江| 霍邱县| 灵山县| 错那县| 贵南县| 伊吾县| 彩票| 夏邑县| 万源市| 托里县| 永登县| 新沂市| 新巴尔虎左旗| 商洛市| 西畴县| 自贡市| 盱眙县| 乳源| 甘孜县| 漳平市| 昔阳县| 潮安县| 沧源| 两当县| 凤城市|