上一篇網易新聞頁面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的語句,
但是meta標簽中的content內容的抓取,沒有提及到!
上網搜索了下,發現很少提及,所以寫篇隨筆,備忘一下!
還是在HtmlAgillityPack搭配ScrapySharp的環境下,具體如何配置點擊上一篇鏈接。
例子:<meta name="keywords" content="召開新聞,自流溝,含油污水" />
提取效果:把文本【召開新聞,自流溝,含油污水】提取出來.
核心代碼:
var html1 = browser1.DownloadString(uri); var doc = new HtmlDocument(); doc.LoadHtml(html1); var keywords = doc.DocumentNode.SelectSingleNode("//meta[@name='keywords']").GetAttributeValue("content");
然后執行Console.WriteLine(keywords);
輸出:召開新聞,自流溝,含油污水