所謂爬蟲簡單點說,就是把別人網站上的東西爬下來,至於爬做什么用就看你自己了,比如:把別人網站上的東西爬下來放在自己網站中(感覺有點像小偷^v^).
這里隨便寫了一個爬蟲代碼(可以自己再去進行完善):
protected void Button1_Click(object sender, EventArgs e) { string htmlcode = GetHTML("http://www.imooc.com/learn/348"); Regex reg = new Regex("<strong><i class=\"state-expand\"></i>.*</strong>"); MatchCollection ms = reg.Matches(htmlcode); foreach (Match m in ms) { Response.Write(m.ToString()+"<br>"); }
} public string GetHTML(string url) { WebClient web = new WebClient(); byte[] buffer = web.DownloadData(url); return Encoding.UTF8.GetString(buffer); }
這里是從慕課網的一個網頁中爬一些章節信息下來(這不是給慕課網打廣告,但是里面確實有一些比較好的學習資料,大家可以直接訪問http://www.imooc.com/learn/348看看這頁的內容)。
代碼分析:
1、通過WebClient將對應網頁的源碼下載下來(適當的編碼好,要不是容易出現亂碼問題)
2、從源碼中抓取出自己需要的信息,這里用的正則表達式去抓取匹配的信息,然后輸出來
這樣一個簡單的爬蟲就做好了,大家可以試一試
