PHP 爬蟲體驗（一） - 使用dom-crawler和guzzle實現基本的爬蟲

本文轉載自查看原文 2018-10-15 10:09 2001

網絡爬蟲在大數據時代可以非常高效地自動進行數據的收集處理，而傳統爬蟲最簡單也是最基本的功能實現原理即是下載網頁，然后通過抽取頁面元素來達到收集信息的目的。

PHP作為一門靈活易用的腳本語言，實現這些功能自然是不在話下的。

這里實現爬蟲基於兩個組件：

guzzle：最好用的PHP HTTP客戶端，用來進行爬取頁面的請求，異步請求和並發請求功能可以用來實現一些后期的擴展功能。

dom-crawler：symphony的Dom分析組件，可以用來分析HTML頁面Dom元素和XML文件，用來進行頁面分析。

兩個組件在項目中都可以很方便地使用composer進行安裝，這里以博客園的文章為例，使用這兩個組件實現最簡單的頁面抓取，抓取我個人博客園首頁的文章摘要和鏈接。

代碼如下：

 1 require_once __DIR__ . '/vendor/autoload.php';
 2 
 3 use GuzzleHttp\Client;
 4 use Symfony\Component\DomCrawler\Crawler;
 5 
 6 run();
 7 function run()
 8 {
 9     //要爬取的頁面地址為我的博客園主頁
10     $url = "http://www.cnblogs.com/jackiebao/";
11     //偽造瀏覽器UA
12     $headers = [
13         'user-agent' => 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
14     ];
15     $client = new Client([
16         'timeout' => 20,
17         'headers' => $headers
18     ]);
19     //發送請求獲取頁面內容
20     $response = $client->request('GET', $url)->getBody()->getContents();
21 
22     $data = [];
23     $crawler = new Crawler();
24     $crawler->addHtmlContent($response);
25 
26     //使用crawler進行頁面內容分析
27     try{
28         //這里使用的是xpath語法，輪詢forFlow子類day中的元素，既頁面上每一篇文章的塊狀元素，並且進行內容獲取
29         $crawler->filterXPath('//div[contains(@class, "forFlow")]/div[contains(@class, "day")]')->each(function(Crawler $node, $i) use (&$data){
30             $item = [
31                 'date' => $node->filterXPath('//div[contains(@class, "dayTitle")]/a')->text(),
32                 'title' => $node->filterXPath('//div[contains(@class, "postTitle")]/a')->text(),
33                 'abstract' => $node->filterXPath('//div[contains(@class, "postCon")]/div')->text(),
34                 'url' => $node->filterXPath('//div[contains(@class, "postCon")]/div/a')->attr('href'),
35             ];
36             $data[] = $item;
37         });
38     }catch (\Exception $e){
39         echo $e->getMessage() . PHP_EOL;
40     }
41     //打印結果
42     print_r($data);
43 }

打印出來的結果為：

得到這樣格式化的數據就很方便進行進一步的處理了，而最基礎的爬蟲功能也就實現了，實際上是非常簡單的。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲_Crawler4j的使用 php 請求庫 guzzle 的使用 PHP爬蟲（2）DOM處理利用Guzzle實現另一種PHP異步發送郵件(laravel5.4) 使用Guzzle執行HTTP請求 PHP實現網頁爬蟲 python爬蟲之Splash使用初體驗 crawler4j：輕量級多線程網絡爬蟲實例分布式爬蟲框架XXL-CRAWLER PHP使用DOM XML操作XML[總結]