中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何爬取地鐵線路圖

發布時間:2021-11-25 14:56:21 來源:億速云 閱讀:235 作者:小新 欄目:大數據

這篇文章將為大家詳細講解有關Python如何爬取地鐵線路圖,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

BeautifulSoup(bs4)庫介紹

BeautifulSoup:“美味的湯,綠色的濃湯”,是一個可以從HTML或XML文件中提取數據的Python庫。BeautifulSoup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。

BeautifulSoup自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時,BeautifulSoup就不能自動識別編碼方式了。然后,你僅僅需要說明一下原始編碼方式就可以了。

可以直接使用pip安裝:

pip install BeautifulSoup

BeautifulSoup支持Python標準庫中的HTML解析器,還支持一些第三方的解析器,如,lxml,XML,html5lib等,但是需要安裝相應的庫:

pip install lxml

如果我們不安裝它,則Python會使用Python默認的解析器,lxml解析器更加強大,速度更快,推薦安裝。

接下來我們以爬取8684網站上的深圳地鐵線路數據為例來進行爬蟲實戰。

Python如何爬取地鐵線路圖

地鐵線路網址的獲取

首先導入庫bs4、lxml、requests:

import requests
import json
from bs4 import BeautifulSoup
import lxml.html

獲取地鐵線路網址

etree = lxml.html.etree
def get_urls():
    url = 'https://dt.8684.cn/so.php?k=pp&dtcity=sz&q=wedwed'
    response = requests.get(url=url)
    soup = BeautifulSoup(response.content, 'lxml').find(attrs={'class': 'fs-fdLink'})
    routes = soup.find('tr').find('td').findAll('a')# 查找所有有關的節點
    route_list = []
    for i in routes:
        per = {}
        per['key'] = i.string
        per['value'] = 'https://dt.8684.cn' + i.get('href')
        route_list.append(per)
    return route_list

其中,

soup = BeautifulSoup(response.content, 'lxml')

為創建BeautifulSoup對象,其意義是將發送網絡請求返回的響應數據創建為soup對象,數據格式為lxml。

具體線路下線路數據的獲取

def get_schedule(url):
    response = requests.get(url['value'])
    soup = BeautifulSoup(response.content, 'lxml').find(attrs={'class': 'ib-mn'})
    table_head = soup.find(attrs={'class': 'pi-table tl-table'})
    per_info = table_head.findAll('tr')
    route_list = []
    if (url['key'].find('內圈') == -1 and url['key'].find('外圈') == -1):#地鐵線路名稱既無內環也無外環
        route_info = {} #定義地鐵內環字典
        route_info_wai = {}#定義地鐵外環字典
        stations_nei = [] #定義地鐵內環站臺列表
        route_info['name'] = url['key'] + '內環'#定義內環線路字典name鍵的值
        route_info_wai['name'] = url['key'] + '外環'# 定義外環線路字典name鍵的值
        time_nei_1 = []#定義地鐵內環發車時間列表
        time_nei_2 = []#定義地鐵內環收班時間列表
        time_wai_1 = [] #定義地鐵外環發車時間列表
        time_wai_2 = []# 定義地鐵外環收班時間列表
        for i in per_info:
            if (i != []):
                j = i.findAll('td')
                if (j != []):
                    for k in j[0]:
                        stations_nei.append(k.text)#內外環站點名
                    for k in j[3]:
                        time_nei_2.append(k)#內環收車時間
                    for k in j[1]:
                        time_nei_1.append(k)#內環發車時間
                    for k in j[4]:
                        time_wai_2.append(k) #外環收車時間
                    for k in j[2]:
                        time_wai_1.append(k)#外環發車時間
        try:
            if (time_nei_1[0] != '--' and time_nei_1[0] != '—'):
                route_info['startTime'] = startTime = time_nei_1[0]#篩除地鐵內環線路發車時間為空的數值
            else:
                route_info['startTime'] = time_nei_1[1]#定義地鐵內環線路發車時間
            if (time_nei_2[len(time_nei_2) - 1] != '--' and time_nei_2[len(time_nei_2) - 1] != '—'):
                route_info['endTime'] = time_nei_2[len(time_nei_2) - 1]#篩除地鐵內環線路收車時間為空的數值
            else:
                route_info['endTime'] = time_nei_2[len(time_nei_2) - 2]# 定義地鐵內環線路收車時間
            if (time_wai_1[len(time_wai_1) - 1] != '--' and time_wai_1[len(time_wai_1) - 1] != '—'):
                route_info_wai['startTime'] = time_wai_1[len(time_wai_1) - 1]# 篩除地鐵外環線路發車時間為空的數值
            else:
                route_info_wai['startTime'] = time_wai_1[len(time_wai_1) - 2]# 定義地鐵外環線路發車時間
            if (time_wai_2[0] != '--' and time_wai_2[0] != '—'):
                route_info_wai['endTime'] = startTime = time_wai_2[0]# 篩除地鐵外環線路收車時間為空的數值
            else:
                route_info_wai['endTime'] = time_wai_2[1]# 定義地鐵外環線路收車時間
        except IndexError as e:
            route_info_wai['startTime'] = '06:00'
            route_info_wai['endTime'] = '23:00'
            route_info['startTime'] = '06:00'
            route_info['endTime'] = '23:00'#若無法找到數據,則捕捉索引異常錯誤,并對運行時間賦默認值

        route_info['stations'] = stations_nei #內環線路字典stations值賦為內環站點名
        route_info_wai['stations'] = list(reversed(stations_nei))#反轉列表值并強制轉換數據類型為列表,作為外環站點名
        route_list.append(route_info)
        route_list.append(route_info_wai)#將內外環線路字典插入列表
    else:
    #地鐵線路名稱包含“內環”或“外環”
        route_info = {}
        stations = []
        route_info['name'] = url['key']# 定義線路字典name鍵的值
        time_1 = [] # 定義地鐵發車時間列表
        time_2 = []#定義地鐵收車時間列表
        for i in per_info:
            if (i != []):
                j = i.findAll('td')
                if (j != []):# 篩除表頭相關空數據
                    for k in j[0]:
                        stations.append(k.text)#地鐵線路站點名
                    for k in j[1]:
                        time_1.append(k)#地鐵線路發車時間
                    for k in j[2]:
                        time_2.append(k)#地鐵線路收車時間
        if (time_1[0] != '--' and time_1[0] != '—'):
            route_info['startTime'] = startTime = time_1[0]# 篩除地鐵線路發車時間為空的數值
        else:
            route_info['startTime'] = time_1[1]#定義地鐵線路發車時間
        if (time_2[len(time_2) - 1] != '--' and time_2[len(time_2) - 1] != '—'):
            route_info['endTime'] = time_2[len(time_2) - 1]#篩除地鐵線路收車時間為空的數值
        else:
            route_info['endTime'] = time_2[len(time_2) - 2]#定義地鐵線路收車時間
        route_info['stations'] = stations# 線路字典stations值賦為站點名
        route_list.append(route_info)#將線路字典插入列表
    return route_list

其中,if語句(Part2的大部分代碼)都是用于對非常規線路數據進行特殊處理,這也印證了“80%的代碼處理20%的情況”,常規線路數據只需前六行代碼即可爬取,最終返回線路列表rout_list。

整合數據

for i in get_urls():#遍歷城市地鐵線路網址
    for j in get_schedule(i):
        json_str = json.dumps(j, ensure_ascii=False)
#轉換數據格式為json格式,忽略格式轉換錯誤進行強制轉換
        print(json_str)

關于“Python如何爬取地鐵線路圖”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

友谊县| 东兰县| 奉新县| 达州市| 改则县| 辰溪县| 徐州市| 遵化市| 芦山县| 金华市| 福泉市| 南充市| 社会| 克东县| 甘洛县| 元氏县| 耒阳市| 西宁市| 凌源市| 砀山县| 松阳县| 怀安县| 北辰区| 昌吉市| 双流县| 沐川县| 上栗县| 磐安县| 威宁| 都江堰市| 六安市| 台南县| 远安县| 固安县| 新郑市| 甘谷县| 奉新县| 柳江县| 锡林浩特市| 明溪县| 绵竹市|