利用Abot 抓取博客園新聞數據


1. 引言

相比於Java而言,基於C#的開源爬蟲就少了很多。入行這么多年也從未接觸過爬蟲。出於興趣今天給大家介紹一個C# 的爬蟲工具Abot. 需要使用可以通過Nuget獲取。Abot本身就支持多線程的爬取,

內部使用CsQuery來解析爬取到的Html文檔。熟悉jQuery的同學肯定能快速上手CsQuery, 它就是一個C#版本的jQuery。

這里以爬取博客園當天的新聞數據為例,看看如何使用Abot。

 

2. 博客園新聞頁面

http://news.cnblogs.com/ 這是博客園的新聞首頁。可以看到典型的分頁顯示。比如 http://news.cnblogs.com/n/page/2/ 這是新聞的第二頁。

真正的新聞詳細頁面 比如:http://news.cnblogs.com/n/544956/, 通過正則表達式可以很輕松的匹配這兩種Url 類型。

當然我們可以通過一個 for 循環分別爬取各個page的新聞數據。然后解析出發表於今天的新聞。但是我希望只以http://news.cnblogs.com/ 為種子頁面,爬取今天的新聞。

由於博客園新聞分頁並不是采用Ajax,對於爬蟲而言這非常友好

image

因此我們定義

        /// <summary>
        /// 種子Url
        /// </summary>
        public static readonly Uri FeedUrl = new Uri(@"http://news.cnblogs.com/");

        /// <summary>
        ///匹配新聞詳細頁面的正則
         /// </summary>
        public static Regex NewsUrlRegex = new Regex("^http://news.cnblogs.com/n/\\d+/$", RegexOptions.Compiled);

        /// <summary>
        /// 匹配分頁正則
         /// </summary>
        public static Regex NewsPageRegex = new Regex("^http://news.cnblogs.com/n/page/\\d+/$", RegexOptions.Compiled);

 

3. 實現

Abot 其實已經對爬蟲內部實現封裝的非常精巧,使用者只需要設置一些Config 參數和爬取頁面的一些事件即可。

        public static IWebCrawler GetManuallyConfiguredWebCrawler()
        {
            CrawlConfiguration config = new CrawlConfiguration();
            config.CrawlTimeoutSeconds = 0;
            config.DownloadableContentTypes = "text/html, text/plain";
            config.IsExternalPageCrawlingEnabled = false;
            config.IsExternalPageLinksCrawlingEnabled = false;
            config.IsRespectRobotsDotTextEnabled = false;
            config.IsUriRecrawlingEnabled = false;
            config.MaxConcurrentThreads = System.Environment.ProcessorCount;
            config.MaxPagesToCrawl = 1000;
            config.MaxPagesToCrawlPerDomain = 0;
            config.MinCrawlDelayPerDomainMilliSeconds = 1000;

            var crawler = new PoliteWebCrawler(config, null, null, null, null, null, null, null, null);

            crawler.ShouldCrawlPage(ShouldCrawlPage);

            crawler.ShouldDownloadPageContent(ShouldDownloadPageContent);

            crawler.ShouldCrawlPageLinks(ShouldCrawlPageLinks);

            crawler.PageCrawlStartingAsync += crawler_ProcessPageCrawlStarting;
            
            //爬取頁面后的回調函數
            crawler.PageCrawlCompletedAsync += crawler_ProcessPageCrawlCompletedAsync;
            crawler.PageCrawlDisallowedAsync += crawler_PageCrawlDisallowed;
            crawler.PageLinksCrawlDisallowedAsync += crawler_PageLinksCrawlDisallowed;

            return crawler;
        }

具體調用非常簡單:

        public static void Main(string[] args)
        {
            var crawler = GetManuallyConfiguredWebCrawler();
            var result = crawler.Crawl(FeedUrl);

            System.Console.WriteLine(result.ErrorException);
        }

最主要的是PageCrawlCompletedAsync,可以在該事件下獲取需要的頁面數據。

        public static void crawler_ProcessPageCrawlCompletedAsync(object sender, PageCrawlCompletedArgs e)
        {
            //判斷是否是新聞詳細頁面
            if (NewsUrlRegex.IsMatch(e.CrawledPage.Uri.AbsoluteUri))
            {
                //獲取信息標題和發表的時間
                   var csTitle = e.CrawledPage.CsQueryDocument.Select("#news_title");
                var linkDom = csTitle.FirstElement().FirstChild;

                var newsInfo = e.CrawledPage.CsQueryDocument.Select("#news_info");
                var dateString = newsInfo.Select(".time", newsInfo);

                //判斷是不是今天發表的
                  if (IsPublishToday(dateString.Text()))
                {
                    var str = (e.CrawledPage.Uri.AbsoluteUri + "\t" + HtmlData.HtmlDecode(linkDom.InnerText) + "\r\n");
                    System.IO.File.AppendAllText("fake.txt", str);
                }
            }
        }

        /// <summary>
        /// "發布於 2016-05-09 11:25" => true
        /// </summary>
        public static bool IsPublishToday(string str)
        {
            if (string.IsNullOrEmpty(str))
            {
                return false;
            }

            const string prefix = "發布於";
            int index = str.IndexOf(prefix, StringComparison.OrdinalIgnoreCase);
            if (index >= 0)
            {
                str = str.Substring(prefix.Length).Trim();
            }

            DateTime date;
            return DateTime.TryParse(str, out date) && date.Date.Equals(DateTime.Today);
        }

為了提升爬取的效果 比如在首頁爬蟲抓取到 http://news.cnblogs.com/n/topiclist/, 顯然這樣的鏈接我們不需要, 那就可以設置爬取的規則:

        /// <summary>
        /// 如果是Feed頁面或者分頁或者詳細頁面才需要爬取
         /// </summary>
        private static CrawlDecision ShouldCrawlPage(PageToCrawl pageToCrawl, CrawlContext context)
        {
            if (pageToCrawl.IsRoot || pageToCrawl.IsRetry || FeedUrl == pageToCrawl.Uri
                || NewsPageRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri)
                || NewsUrlRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri))
            {
                return new CrawlDecision {Allow = true};
            }
            else
            {
                return new CrawlDecision {Allow = false, Reason = "Not match uri"};
            }
        }
        /// <summary>
        /// 如果是Feed頁面或者分頁或者詳細頁面才需要爬取
         /// </summary>
        private static CrawlDecision ShouldDownloadPageContent(PageToCrawl pageToCrawl, CrawlContext crawlContext)
        {
            if (pageToCrawl.IsRoot || pageToCrawl.IsRetry || FeedUrl == pageToCrawl.Uri
                || NewsPageRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri)
                || NewsUrlRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri))
            {
                return new CrawlDecision
                {
                    Allow = true
                };
            }

            return new CrawlDecision { Allow = false, Reason = "Not match uri" };
        }

        private static CrawlDecision ShouldCrawlPageLinks(CrawledPage crawledPage, CrawlContext crawlContext)
        {
            if (!crawledPage.IsInternal)
                return new CrawlDecision {Allow = false, Reason = "We dont crawl links of external pages"};

            if (crawledPage.IsRoot || crawledPage.IsRetry || crawledPage.Uri == FeedUrl
                || NewsPageRegex.IsMatch(crawledPage.Uri.AbsoluteUri))
            {
                return new CrawlDecision {Allow = true};
            }
            else
            {
                return new CrawlDecision {Allow = false, Reason = "We only crawl links of pagination pages"};
            }
        }

最終抓到的數據:

image

 

4. 總結

Abot 還是一個非常方便爬蟲,如果運用到實際生產環境中,參數配置是首先需要解決的,比如 MaxPagesToCrawl 最大抓取的頁面數,還可以設置爬蟲內存限制等。

 

歡迎訪問我的個人網站 51zhang.net 網站還在不斷開發中…


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM