[DotnetSpider 系列目錄]
為什么要造輪子
同學們可以去各大招聘網站查看一下爬蟲工程師的要求,大多是招JAVA、PYTHON,甚至於還有NODEJS,C++;再或者去開源中國查詢C#的爬蟲項目,僅有幾個非常簡單或是幾年沒有更新的項目。
而單純性能上.NET對比JAVA,PYTHON並沒有處於弱勢,反而有開發上的優勢(得益於世界上最強大的IDE)。爬蟲性能瓶頸大多是在並發下載(網速)、IP池,那么為什么.NET沒有一個強大的爬蟲框架呢?說真的我不知道,可能爬蟲框架核心上比較簡單,也可能.NET的開發人員沒有別的語言的開發人員勤奮,或是.NET的開源氛圍沒有別的語言高。直到.NET要出開源版的消息傳來,我覺得是時候開發一個跨平台,跨語言的爬蟲框架了。但一開始是比較忐忑的,覺得自己水平不夠去完全重新設計一個新的框架出來,因此參考了JAVA的一個輕量級爬蟲框架webmagic,並加入了我自己的理解和改進。如果設計或寫得不好請大家指正海涵
框架設計
由於我是參考的webmagic,所以整體架構上沒有什么大的變化,設計圖如下(圖片是直接從webmagic上拿的)

- Scheduler:負責URL的調度、去重,可以實現如Queue, PriorityQueueScheduler, RedisScheduler(可用於分布式)等等
- Downloader: 負責下載HTML,可以實現如HttpDownloader, 瀏覽器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
- PageProcesser: 負責HTML解析、目標URL的選擇
- Pipeline: 負責數據的存儲, 已實現文件存儲, MySql存儲, MySqlFile存儲(腳本),MSSQL存儲,MongoDb存儲, 更多存儲期待您的貢獻
優點
- 可以使用Json定義爬蟲
- 可以使用實體類+Attrbiute定義爬蟲
- 自動創建數據庫、數據表
- 支持 .NET CORE,可以跨平台
- 支持ADSL撥號換IP:如果所有爬蟲統一部署, 可以實現單台機器同時運行多個任務撥號互不影響、或者一個路由下面多個電腦下多個任務撥號互不影響
- 支持自定義代理池
- 有管理平台
基本使用
基本使用只需要引用DotnetSpider2.Core(Nuget中獲取)
DotnetSpider實現一個完整爬蟲是需要4個模塊的:Scheduler、Downloader、PageProcessor、Pipeline。由於Downloader和Scheduler都是有基本實現的,因此只需要實現PageProcessor和Pipeline就可以實現一個基本爬蟲了,這種方式也是最自由的方式。
完全自定義的例子如下:
public static void Main(string[] args) { // Custmize processor and pipeline 完全自定義頁面解析和數據管道 CustmizeProcessorAndPipeline(); Console.WriteLine("Press any key to continue..."); Console.Read(); }
public static void CustmizeProcessorAndPipeline() { // Config encoding, header, cookie, proxy etc... 定義采集的 Site 對象, 設置 Header、Cookie、代理等 var site = new Site { EncodingName = "UTF-8", RemoveOutboundLinks = true }; for (int i = 1; i < 5; ++i) { // Add start/feed urls. 添加初始采集鏈接 site.AddStartUrl($"http://list.youku.com/category/show/c_96_s_1_d_1_p_{i}.html"); } Spider spider = Spider.Create(site, // use memoery queue scheduler. 使用內存調度 new QueueDuplicateRemovedScheduler(), // use custmize processor for youku 為優酷自定義的 Processor new YoukuPageProcessor()) // use custmize pipeline for youku 為優酷自定義的 Pipeline .AddPipeline(new YoukuPipeline()); spider.Downloader = new HttpClientDownloader(); spider.ThreadNum = 1; spider.EmptySleepTime = 3000; // Start crawler 啟動爬蟲 spider.Run(); } public class YoukuPipeline : BasePipeline { private static long count = 0; public override void Process(params ResultItems[] resultItems) { foreach (var resultItem in resultItems) { StringBuilder builder = new StringBuilder(); foreach (YoukuVideo entry in resultItem.Results["VideoResult"]) { count++; builder.Append($" [YoukuVideo {count}] {entry.Name}"); } Console.WriteLine(builder); } // Other actions like save data to DB. 可以自由實現插入數據庫或保存到文件 } } public class YoukuPageProcessor : BasePageProcessor { protected override void Handle(Page page) { // 利用 Selectable 查詢並構造自己想要的數據對象 var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes(); List<YoukuVideo> results = new List<YoukuVideo>(); foreach (var videoElement in totalVideoElements) { var video = new YoukuVideo(); video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue(); results.Add(video); } // Save data object by key. 以自定義KEY存入page對象中供Pipeline調用 page.AddResultItem("VideoResult", results); // Add target requests to scheduler. 解析需要采集的URL //foreach (var url in page.Selectable.SelectList(Selectors.XPath("//ul[@class='yk-pages']")).Links().Nodes()) //{ // page.AddTargetRequest(new Request(url.GetValue(), null)); //} } } public class YoukuVideo { public string Name { get; set; } }
配置式爬蟲
配置式爬蟲需要額外引用DotnetSpider2.Extension(Nuget中獲取)
大部分情況下只需要配置式來實現一個采集任務。相對於基本使用方式,配置式爬式只需要短短的幾行代碼就可以實現一個爬蟲。但凡事有利就有弊,配置式爬的自由度相對低了一些。
使用配置式爬蟲的步驟如下:
- 定義數據實體類,通過添加Attribute來定義數據的存儲規則、數據從頁面的解析規則
- 定義爬蟲任務的定義,繼承EntitySpider
- 在Main方法中實例化定義好的爬蟲任務,並調用Run方法
完整代碼如下, 感受一下就好,后面章節會詳細介紹如何實現:
public class JdSkuSampleSpider : EntitySpider { public JdSkuSampleSpider() : base("JdSkuSample", new Site { //HttpProxyPool = new HttpProxyPool(new KuaidailiProxySupplier("快代理API")) }) { } protected override void MyInit(params string[] arguments) { Identity = Identity ?? "JD SKU SAMPLE"; ThreadNum = 1; // dowload html by http client Downloader = new HttpClientDownloader(); // storage data to mysql, default is mysql entity pipeline, so you can comment this line. Don't miss sslmode. AddPipeline(new MySqlEntityPipeline("Database='mysql';Data Source=localhost;User ID=root;Password=;Port=3306;SslMode=None;")); AddStartUrl("http://list.jd.com/list.html?cat=9987,653,655&page=2&JL=6_0_0&ms=5#J_main", new Dictionary<string, object> { { "name", "手機" }, { "cat3", "655" } }); AddEntityType<Product>(); } [EntityTable("test", "jd_sku", EntityTable.Monday, Indexs = new[] { "Category" }, Uniques = new[] { "Category,Sku", "Sku" })] [EntitySelector(Expression = "//li[@class='gl-item']/div[contains(@class,'j-sku-item')]")] [TargetUrlsSelector(XPaths = new[] { "//span[@class=\"p-num\"]" }, Patterns = new[] { @"&page=[0-9]+&" })] public class Product : SpiderEntity { [PropertyDefine(Expression = "./@data-sku", Length = 100)] public string Sku { get; set; } [PropertyDefine(Expression = "name", Type = SelectorType.Enviroment, Length = 100)] public string Category { get; set; } [PropertyDefine(Expression = "cat3", Type = SelectorType.Enviroment)] public int CategoryId { get; set; } [PropertyDefine(Expression = "./div[1]/a/@href")] public string Url { get; set; } [PropertyDefine(Expression = "./div[5]/strong/a")] public long CommentsCount { get; set; } [PropertyDefine(Expression = ".//div[@class='p-shop']/@data-shop_name", Length = 100)] public string ShopName { get; set; } [PropertyDefine(Expression = ".//div[@class='p-name']/a/em", Length = 100)] public string Name { get; set; } [PropertyDefine(Expression = "./@venderid", Length = 100)] public string VenderId { get; set; } [PropertyDefine(Expression = "./@jdzy_shop_id", Length = 100)] public string JdzyShopId { get; set; } [PropertyDefine(Expression = "Monday", Type = SelectorType.Enviroment)] public DateTime RunId { get; set; } } }
public class Program { public static void Main(string[] args) { JdSkuSampleSpider spider = new JdSkuSampleSpider(); spider.Run(); } }
代碼地址
https://github.com/zlzforever/DotnetSpider 望各位大佬加星 :)
參與開發或有疑問
博文寫得比較早, 框架修改有時會來不及更新博文中的代碼, 請查看DotnetSpider.Sample項目中的樣例爬蟲
QQ群: 477731655
