php爬蟲最最最最簡單教程


php爬蟲最最最最簡單教程

一、總結

一句話總結:用的爬蟲框架,卻是用的自己的例子(因為網站結構的變化,作者的例子不一定好用)

爬蟲框架 自己例子

 

1、發現自己的運行效果和作者的不一樣怎么辦?

耐下性子快速閱讀全部文檔

作者的文檔很有可能是之前寫的,不一樣正常,但是看文檔的時候盡量全部文檔都看一下,否則只看前面幾個因為各種原因(比如例子年久失修)例子可能運行不出來

 

 

二、爬蟲使用流程

1、下載爬蟲框架

owner888/phpspider: 《我用爬蟲一天時間“偷了”知乎一百萬用戶,只為證明PHP是世界上最好的語言 》所使用的程序
https://github.com/owner888/phpspider

2700+Star,用用不虧

 

我下載的發布版2.1.6

點開

下載好的

然后解壓

 

 

 

2、配置php環境(非必須,為了方便)

在電腦的系統環境變量配置里面,在path變量里面添加了一條php,可以發現我的php版本是7.0.12

不會配置電腦系統變量的自己百度去,和配置java的jdk類似

 

3、用我的例子(例子的功能是獲取博客園里面文章的標題)

在demo文件夾下新建一個名為firstDemo_2.php的php文件

如下

文件里面的代碼如下:例子的功能是獲取博客園里面文章的標題

 1 <?php
 2 // composer下載方式
 3 // 先使用composer命令下載:
 4 // composer require owner888/phpspider
 5 // 引入加載器
 6 //require './vendor/autoload.php';
 7 
 8 // GitHub下載方式
 9 require_once __DIR__ . '/../autoloader.php';
10 use phpspider\core\phpspider;
11 
12 /* Do NOT delete this comment */
13 /* 不要刪除這段注釋 */
14 
15 $configs = array(
16     'name' => '博客園',
17     'log_show' => false,
18     'domains' => array(
19         'www.cnblogs.com'
20     ),
21     'scan_urls' => array(
22         'https://www.cnblogs.com/Renyi-Fan/p/10570492.html'
23     ),
24     'fields' => array(
25         // 抽取內容頁的文章標題
26         array(
27             'name' => "article_title",
28             'selector' => "//*[@id=\"cb_post_title_url\"]",
29             'required' => true
30         )
31     ),
32     'export' => array(
33         'type'  => 'sql',
34         'file'  => './data/cnblog_fry.sql',
35         'table' => '數據表',
36     ),
37 
38 );
39 
40 $spider = new phpspider($configs);
41 $spider->start();

具體代碼什么意思看官方文檔:地址如下:

概述 · phpspider開發文檔
https://doc.phpspider.org/

 

4、具體運行例子過程

在剛剛下載好的phpspider-2.1.6\demo的文件夾下打開命令行

運行:php -f firstDemo_2.php

 

運行效果:

 

5、運行的結果

在如下路徑下打開cnblog_fry.sql即可查看爬蟲效果

 

效果如下:

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM