中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python怎么爬取人人網新鮮事

發布時間:2020-08-24 18:10:44 來源:億速云 閱讀:275 作者:Leah 欄目:編程語言

這篇文章將為大家詳細講解有關Python怎么爬取人人網新鮮事,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。

Python實現登錄人人網并抓取新鮮事的方法:

from sgmllib import SGMLParser
import sys,urllib2,urllib,cookielib
class spider(SGMLParser):
  def __init__(self,email,password):
    SGMLParser.__init__(self)
    self.h4=False
    self.h4_is_ready=False
    self.div=False
    self.h4_and_div=False
    self.a=False
    self.depth=0
    self.names=""
    self.dic={}  
    self.email=email
    self.password=password
    self.domain='renren.com'
    try:
      cookie=cookielib.CookieJar()
      cookieProc=urllib2.HTTPCookieProcessor(cookie)
    except:
      raise
    else:
      opener=urllib2.build_opener(cookieProc)
      urllib2.install_opener(opener)    
  def login(self):
    url='http://www.renren.com/PLogin.do'
    postdata={
         'email':self.email,
         'password':self.password,
         'domain':self.domain 
         }
    req=urllib2.Request(
              url,
              urllib.urlencode(postdata)      
              )
    self.file=urllib2.urlopen(req).read()
    #print self.file
  def start_h4(self,attrs):
    self.h4 = True
  def end_h4(self):
    self.h4=False
    self.h4_is_ready=True
  def start_a(self,attrs):
    if self.h4 or self.div:
      self.a=True
  def end_a(self):
    self.a=False
  def start_div(self,attrs):
    if self.h4_is_ready == False:
      return
    if self.div==True:
      self.depth += 1
    for k,v in attrs:
      if k == 'class' and v == 'content':
        self.div=True;
        self.h4_and_div=True  #h4 and div is connected
  def end_div(self):
    if self.depth == 0:
      self.div=False
      self.h4_and_div=False
      self.h4_is_ready=False
      self.names=""
    if self.div == True:
      self.depth-=1
  def handle_data(self,text):
    #record the name
    if self.h4 and self.a:
      self.names+=text
    #record says
    if self.h4 and (self.a==False):
      if not text:pass
      else: self.dic.setdefault(self.names,[]).append(text)
      return
    if self.h4_and_div:
      self.dic.setdefault(self.names,[]).append(text)
  def show(self):
    type = sys.getfilesystemencoding()
    for key in self.dic:
      print ( (''.join(key)).replace(' ','')).decode('utf-8').encode(type), \
         ( (''.join(self.dic[key])).replace(' ','')).decode('utf-8').encode(type)
renrenspider=spider('your email','your password')
renrenspider.login()
renrenspider.feed(renrenspider.file)
renrenspider.show()

關于Python怎么爬取人人網新鮮事就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

互助| 兴业县| 咸宁市| 称多县| 溧阳市| 磴口县| 唐海县| 布拖县| 柘城县| 绥芬河市| 原阳县| 隆尧县| 台前县| 子洲县| 垦利县| 衡南县| 安平县| 汝城县| 雷州市| 秭归县| 隆昌县| 石棉县| 玉门市| 墨脱县| 梓潼县| 黄冈市| 文水县| 左权县| 亚东县| 垫江县| 齐河县| 襄樊市| 定襄县| 永寿县| 浏阳市| 辽阳县| 巴塘县| 平乡县| 吴旗县| 虹口区| 桑植县|