【源碼】初探C#爬蟲，持續更新中。。。

本文轉載自查看原文 2015-05-06 10:11 2729 C# .NET 爬蟲/ C#.Net爬蟲軟件

最近看到園子里有人用python做的爬蟲軟件並且上傳的源碼，苦於不懂python，便想着用C#也實現一個簡易的爬蟲軟件。於是昨晚花了一個多小時的時間實現了一個簡單的爬蟲軟件，功能十分簡單，但是覺得還是想分享出來。。。后續樓主還會把功能繼續完善下去。。

一、廢話不多說，直接上圖上碼！

二、其實代碼很簡單：

  public string CreateWeb(string url)
        {

            StringBuilder sb = new StringBuilder();
            //抓取網頁
            WebRequest request = WebRequest.Create(url);
            WebResponse response = request.GetResponse();
            //讀取文件流
            StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("utf-8")); //reader.ReadToEnd() 表示取得網頁的源碼
            //FileStream fs = new FileStream("~/baidu.html", FileMode.OpenOrCreate);
            string strhtml = reader.ReadToEnd();
            //正則匹配網站的圖片標簽
            string Rxg = @"<img\b[^<]*(?:(?!<\/img>)*)";
            //匹配出圖片標簽的集合
            MatchCollection mc = Regex.Matches(strhtml, Rxg);
            for (int i = 0; i < mc.Count; i++)
            {
                sb.Append(mc[i]);
            
            }
            //返回圖片標簽HTML輸出
            return sb.ToString();
        }

三、總結：其實爬蟲的話無非是抓取頁面，然后通過一些規則匹配到頁面里面的元素。

四、源碼：SuperSearch.rar

作者： LiuHuaTao（ LiuHuaTao's Blog on 博客園）
出處：http://www.cnblogs.com/Lhuatao/
本作品由 LiuHuaTao 創作，采用知識共享署名-非商業性使用-禁止演繹 2.5 中國大陸許可協議進行許可。歡迎轉載，但任何轉載必須保留完整文章，在顯要地方顯示署名以及原文鏈接。如您有任何疑問或者授權方面的協商，請給我留言。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C#和Java在語法上的差異（原創，持續更新中） C#語法糖——持續更新 C# 常用linq、lambda表達式整理（持續更新中~~） AMCL論文及源碼解析--參數（持續更新中）常見算法合集[java源碼+持續更新中...] C# 運算符和類型強制轉換(6) 持續更新 C#中級-常用多線程操作（持續更新） Python與C/C++的區別（持續更新中……） C# Socket初探 C++常考面試題匯總(持續更新中)