中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

asp.net怎么采集頁面上所有圖像圖片資源

發布時間:2021-09-15 15:44:21 來源:億速云 閱讀:107 作者:chen 欄目:開發技術

這篇文章主要講解了“asp.net怎么采集頁面上所有圖像圖片資源”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“asp.net怎么采集頁面上所有圖像圖片資源”吧!

/// <summary>
  /// 下載指定URL下的所有圖片
  /// </summary>
  public class WebPageImage
  {
    /// <summary>
    /// 獲取網頁中全部圖片
    /// </summary>
    /// <param name="url">網頁地址</param>
    /// <param name="charSet">網頁編碼,為空自動判斷</param>
    /// <returns>全部圖片顯示代碼</returns>
    public string getImages(string url, string charSet)
    {
      string s = getHtml(url, charSet);
      return getPictures(s, url);
    }

    /// <summary>
    /// 獲取網頁中全部圖片
    /// </summary>
    /// <param name="url">網址</param>
    /// <returns>全部圖片代碼</returns>
    public string getImages(string url)
    {
      return getImages(url, "");
    }

    string doman(string url)
    {
      Uri u = new Uri(url);
      return u.Host;
    }

    /// <summary>
    /// 獲取網頁內容
    /// </summary>
    /// <param name="url">網站地址</param>
    /// <param name="charSet">目標網頁的編碼,如果傳入的是null或者"",那就自動分析網頁的編碼 </param>
    /// <returns></returns>
    string getHtml(string url, string charSet)
    {
      WebClient myWebClient = new WebClient();
      //創建WebClient實例myWebClient 
      // 需要注意的: 
      //有的網頁可能下不下來,有種種原因比如需要cookie,編碼問題等等 
      //這是就要具體問題具體分析比如在頭部加入cookie 
      // webclient.Headers.Add("Cookie", cookie); 
      //這樣可能需要一些重載方法。根據需要寫就可以了 

      //獲取或設置用于對向 Internet 資源的請求進行身份驗證的網絡憑據。 
      myWebClient.Credentials = CredentialCache.DefaultCredentials;
      //如果服務器要驗證用戶名,密碼 
      //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 
      //myWebClient.Credentials = mycred; 
      //從資源下載數據并返回字節數組。(加@是因為網址中間有"/"符號) 
      byte[] myDataBuffer = myWebClient.DownloadData(url);
      string strWebData = Encoding.Default.GetString(myDataBuffer);

      //獲取網頁字符編碼描述信息 
      Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
      string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
      if (charSet == null || charSet == "")
        charSet = webCharSet;

      if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
        strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
      return strWebData;
    }

    string getPictures(string data, string url)
    {
      MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>");
      string s = string.Empty;
      for (int i = 0; i < ps.Count; i++)
      {
        pictures p = new pictures(ps[i].Value, url);
        s += p.GetHtml + "<br />" + Environment.NewLine;
      }
      return s;
    }

    /// <summary>
    /// 圖片實體
    /// 圖片文件屬性處理類
    /// </summary>
    public class pictures
    {
      public pictures(string strHtml, string baseUrl)
      {
        _html = strHtml;
        Uri u1 = new Uri(baseUrl);
        _doman = u1.Host;
        _baseUrl = u1.Scheme + "://" + _doman;
        setSrc();
      }

      private string _html = string.Empty;
      private string _baseUrl = string.Empty;
      private string _doman = string.Empty;

      public string GetHtml
      {
        get { return _html; }
      }

      public string Alt
      {
        get
        {
          return GetAttribute("alt")[0];
        }
      }

      public string Src
      {
        get
        {
          string s = GetAttribute("src")[0];
          return s;
        }
      }

      /// <summary>
      /// 根據基路徑把相對路徑轉換成絕對徑
      /// </summary>
      /// <param name="baseUrl">基礎路徑</param>
      /// <param name="u">待轉換的相對路徑</param>
      /// <returns>絕對路徑</returns>
      public string absUrl(string baseUrl, string u)
      {
        Uri ub = new Uri(baseUrl);
        Uri ua = new Uri(ub, u);
        return ua.AbsoluteUri;
      }

      private void setSrc()
      {
        string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
        string src = GetAttribute("src")[0].ToLower();
        if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
        {
          src = absUrl(_baseUrl, src);
          string s = "src=\"" + src + "\"";
          _html = Regex.Replace(_html, strPattern, s);
        }
      }

      /// <summary>
      /// 獲取HTML代碼中標簽屬性
      /// </summary>
      /// <param name="strHtml">HTML代碼</param>
      /// <param name="strAttributeName">屬性名稱</param>
      /// <returns>屬性值集合</returns>
      private string[] GetAttribute(string strAttributeName)
      {
        List<string> lstAttribute = new List<string>();
        string strPattern = string.Format(
          @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
          strAttributeName
          );
        MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
        foreach (Match m in matchs)
        {
          lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
        }
        if (lstAttribute.Count == 0) lstAttribute.Add("");
        return lstAttribute.ToArray();
      }
    }
  }

調用:

new WebPageImage().getImages(http://www.sina.com)

感謝各位的閱讀,以上就是“asp.net怎么采集頁面上所有圖像圖片資源”的內容了,經過本文的學習后,相信大家對asp.net怎么采集頁面上所有圖像圖片資源這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

黄浦区| 商都县| 南宁市| 太原市| 江陵县| 亳州市| 新河县| 蒲城县| 黎平县| 驻马店市| 什邡市| 无锡市| 阿巴嘎旗| 隆林| 岳池县| 乌拉特后旗| 措勤县| 巩义市| 剑川县| 石泉县| 双辽市| 胶南市| 永平县| 曲水县| 洛川县| 刚察县| 昌吉市| 芒康县| 淳化县| 巴中市| 台湾省| 镇安县| 平南县| 奉贤区| 于田县| 湖北省| 门头沟区| 卓尼县| 壤塘县| 阳泉市| 保康县|