Webmagic功能--抽取元素 - 碼上歡樂

相關內容簡體繁體

Webmagic功能--抽取元素

本文轉載自查看原文 2020-06-16 16:17 828 爬蟲

抽取元素Selectable

在webmagic中主要使用了三種抽取技術：Xpath、正則表達式和CSS選擇器。另外對JSON格式的內容可以使用JsonPath進行解析

Xpath：詳情了解查看w3cschool

下面是一個例子，獲取屬性class=mt的div標簽，里面的h1標簽的內容
```
page.getHtml().Xpath("//div[@class=mt]/h1/text()")
```
CSS選擇器

CSS選擇器是與Xpath相似的語言，在前面的博客中已經總結了Jsoup的選擇器，它比Xpath要簡單一些，但是寫復雜一點的抽取規則，就相對要麻煩一些

div.mt>h1表示class為mt的div標簽下的直接子元素h1標簽
```
page.getHtml().css("div.mt h1").toString();
```
可是使用：nth-child(n)選擇第幾個元素，如下選擇第一個元素
```
page.getHtml().css("div#news_div>ul>li:nth-child(1) a").toString();
```
注意：需要使用>,就是直接子元素才可以選擇第幾個元素
正則表達式

正則表達式是一種通過的文本抽取語言。在這里一般用於獲取url地址

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 thymeleaf公共頁面元素抽取 thymeleaf公共頁面元素抽取 numpy數組的排序,搜索,元素抽取 webMagic入門案例，啟動流程，及從頁面中獲取元素，並放到Page對象中，並成功拿出 SpringBoot-thymeleaf公共頁面元素抽取(十二) php從數組中隨機抽取一些元素 JS從數組中，隨機抽取6個不重復的元素【實踐】js實現隨機不重復抽取數組中元素從數組和List中隨機抽取若干不重復的元素 11、SpringBoot-CRUD-thymeleaf公共頁面元素抽取

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM