C#抓取網頁HTML內容

本文轉載自查看原文 2014-07-14 15:16 8790 C#

　　網上很多內容采集工具，今天就自己試着寫一個，發現C#可以輕松的抓去網頁的內容，進而通過正則來分離出自己感興趣的數據。下面是抓去網頁內容的代碼：

using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Net;
using System.Text;
using System.IO;
using System.Text.RegularExpressions;

namespace Web
{
   /// <summary>  
   /// 公共方法類  
   /// </summary>  
   public class WebHandler
   {
      /// <summary>  
      /// 獲取網頁的HTML碼  
      /// </summary>  
      /// <param name="url">鏈接地址</param>  
      /// <param name="encoding">編碼類型</param>  
      /// <returns></returns>  
      public static string GetHtmlStr(string url, string encoding)
      {
         string htmlStr = "";
         try
         {
            if (!String.IsNullOrEmpty(url))
            {
               WebRequest request = WebRequest.Create(url);            //實例化WebRequest對象  
               WebResponse response = request.GetResponse();           //創建WebResponse對象  
               Stream datastream = response.GetResponseStream();       //創建流對象  
               Encoding ec = Encoding.Default;
               if (encoding == "UTF8")
               {
                  ec = Encoding.UTF8;
               }
               else if (encoding == "Default")
               {
                  ec = Encoding.Default;
               }
               StreamReader reader = new StreamReader(datastream, ec);
               htmlStr = reader.ReadToEnd();                  //讀取網頁內容  
               reader.Close();
               datastream.Close();
               response.Close();
            }
         }
         catch { }
         return htmlStr;
      }
   }  
   
}

這個方法可以獲取網頁的HTML內容，有了HTML我們就可以通過正則來抓去自己想要的內容了。。。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C# 抓取網頁內容的方法 C# asp.net 抓取需要登錄的網頁內容抓取asp.net登錄驗證的網站 c#實現網頁正文抓取 C#: 抓取網頁類（獲取網頁中所有信息）黃聰：C#獲取網頁HTML內容的三種方式 php 網頁內容抓取 C# 網頁數據表格抓取數據 PHP 用QueryList抓取網頁內容 HtmlUnitDriver 網頁內容動態抓取 shell實踐--簡單抓取網頁內容