最近看到園子里有人用python做的爬蟲軟件並且上傳的源碼,苦於不懂python,便想着用C#也實現一個簡易的爬蟲軟件。於是昨晚花了一個多小時的時間實現了一個簡單的爬蟲軟件,功能十分簡單,但是覺得還是想分享出來。。。后續樓主還會把功能繼續完善下去。。
一、 廢話不多說,直接上圖上碼!
二、其實代碼很簡單:
public string CreateWeb(string url) { StringBuilder sb = new StringBuilder(); //抓取網頁 WebRequest request = WebRequest.Create(url); WebResponse response = request.GetResponse(); //讀取文件流 StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("utf-8")); //reader.ReadToEnd() 表示取得網頁的源碼 //FileStream fs = new FileStream("~/baidu.html", FileMode.OpenOrCreate); string strhtml = reader.ReadToEnd(); //正則匹配網站的圖片標簽 string Rxg = @"<img\b[^<]*(?:(?!<\/img>)*)"; //匹配出圖片標簽的集合 MatchCollection mc = Regex.Matches(strhtml, Rxg); for (int i = 0; i < mc.Count; i++) { sb.Append(mc[i]); } //返回圖片標簽HTML輸出 return sb.ToString(); }
三、總結:其實爬蟲的話無非是抓取頁面,然后通過一些規則匹配到頁面里面的元素。
四、 源碼:SuperSearch.rar
作者: LiuHuaTao( LiuHuaTao's Blog on 博客園)
出處:http://www.cnblogs.com/Lhuatao/
本作品由 LiuHuaTao 創作,采用知識共享署名-非商業性使用-禁止演繹 2.5 中國大陸許可協議進行許可。 歡迎轉載,但任何轉載必須保留完整文章,在顯要地方顯示署名以及原文鏈接。如您有任何疑問或者授權方面的協商,請給我留言。