php爬蟲最最最最簡單教程

一、總結

一句話總結：用的爬蟲框架，卻是用的自己的例子（因為網站結構的變化，作者的例子不一定好用）

爬蟲框架自己例子

1、發現自己的運行效果和作者的不一樣怎么辦？

耐下性子快速閱讀全部文檔

作者的文檔很有可能是之前寫的，不一樣正常，但是看文檔的時候盡量全部文檔都看一下，否則只看前面幾個因為各種原因（比如例子年久失修）例子可能運行不出來

二、爬蟲使用流程

1、下載爬蟲框架

owner888/phpspider: 《我用爬蟲一天時間“偷了”知乎一百萬用戶，只為證明PHP是世界上最好的語言》所使用的程序
https://github.com/owner888/phpspider

2700+Star，用用不虧

我下載的發布版2.1.6

點開

下載好的

然后解壓

2、配置php環境（非必須，為了方便）

在電腦的系統環境變量配置里面，在path變量里面添加了一條php，可以發現我的php版本是7.0.12

不會配置電腦系統變量的自己百度去，和配置java的jdk類似

3、用我的例子（例子的功能是獲取博客園里面文章的標題）

在demo文件夾下新建一個名為firstDemo_2.php的php文件

如下

文件里面的代碼如下：例子的功能是獲取博客園里面文章的標題

 1 <?php
 2 // composer下載方式
 3 // 先使用composer命令下載：
 4 // composer require owner888/phpspider
 5 // 引入加載器
 6 //require './vendor/autoload.php';
 7 
 8 // GitHub下載方式
 9 require_once __DIR__ . '/../autoloader.php';
10 use phpspider\core\phpspider;
11 
12 /* Do NOT delete this comment */
13 /* 不要刪除這段注釋 */
14 
15 $configs = array(
16     'name' => '博客園',
17     'log_show' => false,
18     'domains' => array(
19         'www.cnblogs.com'
20     ),
21     'scan_urls' => array(
22         'https://www.cnblogs.com/Renyi-Fan/p/10570492.html'
23     ),
24     'fields' => array(
25         // 抽取內容頁的文章標題
26         array(
27             'name' => "article_title",
28             'selector' => "//*[@id=\"cb_post_title_url\"]",
29             'required' => true
30         )
31     ),
32     'export' => array(
33         'type'  => 'sql',
34         'file'  => './data/cnblog_fry.sql',
35         'table' => '數據表',
36     ),
37 
38 );
39 
40 $spider = new phpspider($configs);
41 $spider->start();