示例 - 17行代碼實現一個簡單高效的多線程蜘蛛程序


多線程蜘蛛程序是一個很有用的組件, 我在自己開發的Spider Studio中也提供了一個. 在設計上我盡量遵循使用簡單的原則, 大量使用dynamic對象的特性, 使得代碼非常精簡靈活, 通過17行就能實現一個功能比較齊全的蜘蛛程序. 現在和大家分享一下:

public void Run()
{
    dynamic link = new ExpandoObject();
    link.Url = "http://news.163.com";
    Spider.AddLink(link);
    Spider.Downloaded += new DownloadedEventHandler((object sender, DownloadedEventArgs e) => { 
        Logger.Log(e.Page.Link.Url);
        foreach(var l in e.Page.SubLinks)
        {
            if(l.Depth <= 2) Spider.AddLink(l); //只采集Depth在2以內的網頁
        }
    });
    Spider.ErrorOccurred += new ErrorOccurredEventHandler((object sender, ErrorOccurredEventArgs e) => { Logger.Log(e.Error.Message); });
    Spider.Start(10); //啟動10個線程運行
    Spider.Wait(); //等待所有線程完成
    Spider.Stop();
}

Spider會用到如下幾個對象, 大部分是dynamic的 (這里用JSON來示例):

  • Link - { Url:"string", Title:"string", Depth:1 }
  • DownloadedEventArgs - { Page: { Link: { Url:"string", Title:"string", Depth:1 }, Html: "string", SubLinks: [{ Url:"string", Title:"string", Depth:1 }]} }
  • ErrorOccurredEventArgs - { Error: ExceptionType }

簡單來說, 就是:

  • Link有三個屬性: Url (字符串), Title (字符串) 和Depth (整形);
  • DownloadedEventArgs有一個屬性: Page, Page又有三個屬性: Page.Link (Link類型), Html (字符串) 和 SubLinks (Link數組);
  • ErrorOccurredEventArgs有一個屬性: Error (Exception類型)

運行情況:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM