爬蟲數據表格

發布時間：2020-05-30 18:29:55 來源：網絡閱讀：386 作者：乖羽吖i 欄目：編程語言

這是一篇關于iaaf國際運動員跳遠數據表格的爬蟲經驗。（今天我們只取progression項的long=jump的數據）
我個人是分了四個腳本進行運行：
首先第一個腳本。1：我們需要導入三個python的第三方庫，分別是requests（?用于簡潔且簡單的處理HTTP請求的第三方庫），beautifulsoup4（?從HTML和XML文件中解析出數據的第三方庫），import json（JSON 是輕量級的文本數據交換格式。是用來存儲和交換文本信息的語法。）
這里我加了一個：from future import print_function（表示不同python版本運行時不會出現問題）
2:這里我們還需要取一個‘User_Agent’：方法：打開主界面檢查元素，在控制臺最下方輸入“alert（navigator.user.Agent）”這時會彈出一個小窗口，復制即可。（作用：用于洋裝成瀏覽器而不是爬蟲）
（'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15', }）

3：url = 'https://www.iaaf.org/records/toplists/jumps/long-jump/outdoor/men/senior/2018?regionType=world&windReading=regular&page={}&bestResultsOnly=true'

這時我們可以利用requests，BeautiflSoup來進行處理。
db = pymongo.MongoClient().iaaf（調用數據庫）
4:res = requests.get(url.format(i), headers=headers)（請求得到數據并勤變量名為res）
5:record_table = soup.findall('table', class='records-table')（定位目標） for i in tr_l: # 針對每一個tr 也就是一行
td_l = i.find_all('td') # td的列表第三項是帶href
（把td_l里面的每一項賦值，組成json數據 {} 插入到mongo（在從mongo里去到herf訪問生涯數據并存回這個表）
6: j_data = {}（將數據存到字典里如下：）
try:
j_data['Rank'] = td_l[0].get_text().strip()
j_data['Mark'] = td_l[1].get_text().strip()
j_data['WIND'] = td_l[2].get_text().strip()
j_data['Competitior'] = td_l[3].get_text().strip()
j_data['DOB'] = td_l[4].get_text().strip()
j_data['Nat'] = td_l[5].get_text().strip()
j_data['Pos'] = td_l[6].get_text().strip()
j_data['Venue'] = td_l[8].get_text().strip()
j_data['Date'] = td_l[9].get_text().strip()

            j_data['href'] = td_l[3].find('a')['href']
        except:
            pass
        db.athletes.×××ert_one(j_data)

  if __name__ == '__main__':
       spider_iaaf()（數據庫）

下面是第二個腳本：
from future import print_function
import requests
from bs4 import BeautifulSoup（同樣引用）
1:headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15'}
2: res = requests.get(url, headers=headers)
html = res.text
3: soup = bs(html,'html.parser')（處理文件）
div = soup.find('div', id='progression')（定位到準確文件）
4:此時如果我們想準確的定位到跳遠成績我?了一句if語句（if "Long Jump" in text and "View Graph" in text:
tbody = i.parent.parent.table.tbody）表明再此界面有Long Jump和View Graph的就是我們所需要的數據并且返回到上兩級取到tbody標簽。
tbody_l.append(tbody) #并且追加到tbody。 # 拿到兩個元素的tbody 一個為室外一個室內用try except，這時我們將兩個數據存到字典里。最后 return indoor outdoor。
if name == 'main':
long_jump（url=）

    接下來是第三個腳本：
from __future__ import print_function

import pymongo（PyMongo是驅動程序，使python程序能夠使用Mongodb數據庫，使用python編寫而成．）
import requests
from bs4 import BeautifulSoup
import json(JSON 是輕量級的文本數據交換格式。是用來存儲和交換文本信息的語法。）)
from long_jump （腳本名）import *(引用第二個腳本)
1:db = pymongo.MongoClient().iaaf（）
2:headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15’}（同上理）
3:def get_href():
href_list = db.athletes.find()
Count = 1（負責去mongo中取href 然后訪問得到的數據存到原來的表中）
4: for i in href_list：（取id 根據id把爬來的生涯數據插回去）
print(count)
5: db.athletes.update({'_id':i.get('_id')},{"$set"{"outdoor":outdoor,"indoor":indoor}})
count += 1（獲得具體數據）
6:if name == 'main':
get_href()

                第四個腳本：
                from __future__ import print_function
      import xlwt（Python語言中，寫入Excel文件的擴展工具。

相應的有xlrd擴展包，專門用于excel讀取。）
import pymongo
1:def write_into_xls(cursor):
title =
['Rank','Mark','age','Competitior','DOB','Nat','country','Venue','Date','out_year','out_performance','out_wind','out_place','out_date','in_year','in_performance','in_place','in_date']

book = xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet = book.add_sheet('iaaf',cell_overwrite_ok=True)

2:
flag = 1
db = pymongo.MongoClient().iaaf
for i in country_l:
cursor = db.athletes.find({'Nat':i})
for i in cursor:
print(i)
count_out = len(i['outdoor'])
count_in = len(i['indoor'])
count = 1
if count_out >= count_in:
count = count_out
else:
count = count_in
if count == 0:
count = 1（count 為這條數據占的行數）
3: flag = flag + count

book.save(r'iaaf.xls')（開始從第一行輸入數據并且從數據庫取）

if name == 'main':
write_into_xls(cursor=None)（生成文件iaaf.xls這時便可用Ecxel查看數據）
***順便記錄一下查看如何查看數據庫的內容兩種方法：
1: ./mongo show dbs
數據庫： iaaf
use iaaf
show tables ---- athletes

    db.athletes.find()

2: pymongo db = pymongo.MongoClient().iaaf
for i in db.athletes.find():
print i

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

爬蟲數據表格

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

爬蟲數據表格

猜你喜歡

最新資訊

相關推薦

相關標簽