asp.net簡單小爬蟲


所謂爬蟲簡單點說,就是把別人網站上的東西爬下來,至於爬做什么用就看你自己了,比如:把別人網站上的東西爬下來放在自己網站中(感覺有點像小偷^v^).

這里隨便寫了一個爬蟲代碼(可以自己再去進行完善):

protected void Button1_Click(object sender, EventArgs e)
{
    string htmlcode = GetHTML("http://www.imooc.com/learn/348");
    Regex reg = new Regex("<strong><i class=\"state-expand\"></i>.*</strong>");
    MatchCollection ms = reg.Matches(htmlcode);
    foreach (Match m in ms)
    {
       Response.Write(m.ToString()+"<br>");
    }
}
public string GetHTML(string url) { WebClient web = new WebClient(); byte[] buffer = web.DownloadData(url); return Encoding.UTF8.GetString(buffer); }

這里是從慕課網的一個網頁中爬一些章節信息下來(這不是給慕課網打廣告,但是里面確實有一些比較好的學習資料,大家可以直接訪問http://www.imooc.com/learn/348看看這頁的內容)。

代碼分析:

1、通過WebClient將對應網頁的源碼下載下來(適當的編碼好,要不是容易出現亂碼問題)

2、從源碼中抓取出自己需要的信息,這里用的正則表達式去抓取匹配的信息,然后輸出來

這樣一個簡單的爬蟲就做好了,大家可以試一試

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM