中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

JAVA使用HtmlUnit爬蟲工具模擬登陸CSDN案例

發布時間:2020-10-05 16:35:06 來源:腳本之家 閱讀:318 作者:執筆記憶的空白 欄目:編程語言

最近要弄一個爬蟲程序,想著先來個簡單的模擬登陸, 在權衡JxBrowserHtmlUnit 兩種技術,  JxBowser有界面呈現效果,但是對于某些js跳轉之后的效果獲取比較繁瑣。

隨后考慮用HtmlUnit, 想著借用咱們CSND的登陸練練手。誰知道CSDN的登陸,js加載時間超長,不設置長一點的加載時間,按鈕提交根本沒效果,js沒生效。 具體看代碼注釋吧。 奉勸做爬蟲的同志們,千萬別用CSDN登陸練手,坑死我了。

maven配置如下:

 <dependencies>
 <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
 <dependency>
 <groupId>net.sourceforge.htmlunit</groupId>
 <artifactId>htmlunit</artifactId>
 <version>2.18</version>
 </dependency>
 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
 <dependency>
 <groupId>org.jsoup</groupId>
 <artifactId>jsoup</artifactId>
 <version>1.9.2</version>
 </dependency>
 </dependencies>

代碼如下:

package com.test;
import java.io.IOException;
import java.net.MalformedURLException;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.SilentCssErrorHandler;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlButtonInput;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlPasswordInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;
import com.gargoylesoftware.htmlunit.util.Cookie;
public class SimulateLogin
{
 //訪問的目標網址(CSDN)
 private static String TARGET_URL = "https://passport.csdn.net/account/login?from=http://www.csdn.net";
 public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException
 {
  // 模擬一個瀏覽器
  WebClient webClient = new WebClient(BrowserVersion.CHROME);
  // 設置webClient的相關參數
  webClient.setCssErrorHandler(new SilentCssErrorHandler()); 
  //設置ajax
  webClient.setAjaxController(new NicelyResynchronizingAjaxController());
  //設置支持js
  webClient.getOptions().setJavaScriptEnabled(true);
  //CSS渲染禁止
  webClient.getOptions().setCssEnabled(false);
  //超時時間
  webClient.getOptions().setTimeout(50000);
  //設置js拋出異常:false
  webClient.getOptions().setThrowExceptionOnScriptError(false);
  //允許重定向
  webClient.getOptions().setRedirectEnabled(true); 
  //允許cookie
  webClient.getCookieManager().setCookiesEnabled(true); 
  // 模擬瀏覽器打開一個目標網址
  HtmlPage page = webClient.getPage(TARGET_URL);
  /**等待js加載完全,CSDN這點 特別坑,js加載時間超長!!!!!!! 后人切記不要用CSDN模擬登陸!!!!!!!**/
  webClient.waitForBackgroundJavaScript(10000*3);
  // 根據form的名字獲取頁面表單,也可以通過索引來獲取:page.getForms().get(0)  
  HtmlForm form = (HtmlForm) page.getElementById("fm1");   
  HtmlTextInput username = (HtmlTextInput) form.getInputByName("username"); 
  HtmlPasswordInput password = (HtmlPasswordInput) form.getInputByName("password"); 
  username.setValueAttribute("********"); //用戶名
  password.setValueAttribute("********"); //密碼
  HtmlButtonInput button = (HtmlButtonInput) page.getByXPath("http://input[contains(@class, 'logging')]").get(0);
//  ScriptResult result = page.executeJavaScript("javascript:document.getElementsByClassName('logging')[0].click()");
//  HtmlPage retPage = (HtmlPage) result.getNewPage();
  HtmlPage retPage = button.click();
  // 等待JS驅動dom完成獲得還原后的網頁 
  webClient.waitForBackgroundJavaScript(1000); 
  //輸出跳轉網頁的地址
  System.out.println(retPage.getUrl().toString()); 
  //輸出跳轉網頁的內容
  System.out.println(retPage.asXml());
  //獲取cookie 
  Set<Cookie> cookies = webClient.getCookieManager().getCookies();
  Map<String, String> responseCookies = new HashMap<String, String>(); 
  for (Cookie c : cookies) { 
   responseCookies.put(c.getName(), c.getValue()); 
   System.out.print(c.getName()+":"+c.getValue()); 
  } 
  webClient.close();
  System.out.println("Success!");
 }
}

另外,CSDN的JS總是莫名其妙的報一堆錯,如果不想看,想忽略的話,在創建WebClient前加上如下代碼:

  //設置日志級別,原頁面js異常不打印
  LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log", "org.apache.commons.logging.impl.NoOpLog"); 
  
  java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit") 
   .setLevel(Level.OFF); 
 
  java.util.logging.Logger.getLogger("org.apache.commons.httpclient") 
   .setLevel(Level.OFF); 

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對億速云的支持。如果你想了解更多相關內容請查看下面相關鏈接

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

贡嘎县| 东丰县| 钟山县| 深圳市| 德保县| 白朗县| 阿克苏市| 苗栗县| 永兴县| 宜城市| 永吉县| 晋州市| 平果县| 昌江| 义乌市| 阜康市| 芜湖县| 吴堡县| 青阳县| 措美县| 原平市| 渝北区| 霍州市| 丰城市| 会同县| 申扎县| 剑川县| 五家渠市| 丰台区| 汤原县| 淮安市| 青冈县| 吕梁市| 苗栗市| 天峻县| 定日县| 徐闻县| 梁山县| 清河县| 邹城市| 万年县|