【源碼】初探C#爬蟲,持續更新中。。。


   最近看到園子里有人用python做的爬蟲軟件並且上傳的源碼,苦於不懂python,便想着用C#也實現一個簡易的爬蟲軟件。於是昨晚花了一個多小時的時間實現了一個簡單的爬蟲軟件,功能十分簡單,但是覺得還是想分享出來。。。后續樓主還會把功能繼續完善下去。。

 一、  廢話不多說,直接上圖上碼!

 

   

 

   

 

二、其實代碼很簡單:

  public string CreateWeb(string url)
        {

            StringBuilder sb = new StringBuilder();
            //抓取網頁
            WebRequest request = WebRequest.Create(url);
            WebResponse response = request.GetResponse();
            //讀取文件流
            StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("utf-8")); //reader.ReadToEnd() 表示取得網頁的源碼
            //FileStream fs = new FileStream("~/baidu.html", FileMode.OpenOrCreate);
            string strhtml = reader.ReadToEnd();
            //正則匹配網站的圖片標簽
            string Rxg = @"<img\b[^<]*(?:(?!<\/img>)*)";
            //匹配出圖片標簽的集合
            MatchCollection mc = Regex.Matches(strhtml, Rxg);
            for (int i = 0; i < mc.Count; i++)
            {
                sb.Append(mc[i]);
            
            }
            //返回圖片標簽HTML輸出
            return sb.ToString();
        } 

三、總結:其實爬蟲的話無非是抓取頁面,然后通過一些規則匹配到頁面里面的元素。

四、 源碼:SuperSearch.rar

 

作者: LiuHuaTao( LiuHuaTao's Blog on 博客園) 
出處:http://www.cnblogs.com/Lhuatao/ 
本作品由 LiuHuaTao 創作,采用知識共享署名-非商業性使用-禁止演繹 2.5 中國大陸許可協議進行許可。 歡迎轉載,但任何轉載必須保留完整文章,在顯要地方顯示署名以及原文鏈接。如您有任何疑問或者授權方面的協商,請給我留言


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM