php爬蟲最最最最簡單教程
一、總結
一句話總結:用的爬蟲框架,卻是用的自己的例子(因為網站結構的變化,作者的例子不一定好用)
爬蟲框架 自己例子
1、發現自己的運行效果和作者的不一樣怎么辦?
耐下性子快速閱讀全部文檔
作者的文檔很有可能是之前寫的,不一樣正常,但是看文檔的時候盡量全部文檔都看一下,否則只看前面幾個因為各種原因(比如例子年久失修)例子可能運行不出來
二、爬蟲使用流程
1、下載爬蟲框架
owner888/phpspider: 《我用爬蟲一天時間“偷了”知乎一百萬用戶,只為證明PHP是世界上最好的語言 》所使用的程序
https://github.com/owner888/phpspider
2700+Star,用用不虧
我下載的發布版2.1.6
點開
下載好的
然后解壓

2、配置php環境(非必須,為了方便)
在電腦的系統環境變量配置里面,在path變量里面添加了一條php,可以發現我的php版本是7.0.12
不會配置電腦系統變量的自己百度去,和配置java的jdk類似
3、用我的例子(例子的功能是獲取博客園里面文章的標題)
在demo文件夾下新建一個名為firstDemo_2.php的php文件
如下
文件里面的代碼如下:例子的功能是獲取博客園里面文章的標題
1 <?php 2 // composer下載方式 3 // 先使用composer命令下載: 4 // composer require owner888/phpspider 5 // 引入加載器 6 //require './vendor/autoload.php'; 7 8 // GitHub下載方式 9 require_once __DIR__ . '/../autoloader.php'; 10 use phpspider\core\phpspider; 11 12 /* Do NOT delete this comment */ 13 /* 不要刪除這段注釋 */ 14 15 $configs = array( 16 'name' => '博客園', 17 'log_show' => false, 18 'domains' => array( 19 'www.cnblogs.com' 20 ), 21 'scan_urls' => array( 22 'https://www.cnblogs.com/Renyi-Fan/p/10570492.html' 23 ), 24 'fields' => array( 25 // 抽取內容頁的文章標題 26 array( 27 'name' => "article_title", 28 'selector' => "//*[@id=\"cb_post_title_url\"]", 29 'required' => true 30 ) 31 ), 32 'export' => array( 33 'type' => 'sql', 34 'file' => './data/cnblog_fry.sql', 35 'table' => '數據表', 36 ), 37 38 ); 39 40 $spider = new phpspider($configs); 41 $spider->start();
具體代碼什么意思看官方文檔:地址如下:
概述 · phpspider開發文檔
https://doc.phpspider.org/
4、具體運行例子過程
在剛剛下載好的phpspider-2.1.6\demo的文件夾下打開命令行
運行:php -f firstDemo_2.php
運行效果:
5、運行的結果
在如下路徑下打開cnblog_fry.sql即可查看爬蟲效果
效果如下: