爬蟲技術 -- 進階學習(十一)【補充】獲取html中meta標簽中的content的內容


上一篇網易新聞頁面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的語句,

但是meta標簽中的content內容的抓取,沒有提及到!

上網搜索了下,發現很少提及,所以寫篇隨筆,備忘一下!

還是在HtmlAgillityPack搭配ScrapySharp的環境下,具體如何配置點擊上一篇鏈接。

例子:<meta name="keywords" content="召開新聞,自流溝,含油污水" />

提取效果:把文本【召開新聞,自流溝,含油污水】提取出來.

核心代碼:

 

 var html1 = browser1.DownloadString(uri); 
 var doc = new HtmlDocument(); 
 doc.LoadHtml(html1);
 var keywords = doc.DocumentNode.SelectSingleNode("//meta[@name='keywords']").GetAttributeValue("content");       
然后執行Console.WriteLine(keywords);
輸出:召開新聞,自流溝,含油污水


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM