簡單使用phpspider采集本博客文章內容

本文轉載自查看原文 2019-03-28 10:38 639 php

采集流程

根據鏈接獲取頁面內容(curl)->獲取需要采集的內容（可以通過正則、xpath、css選擇器等方法進行篩選）

<?php

require_once 'phpspider/autoloader.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector;
/* Do NOT delete this comment */
/* 不要刪除這段注釋 */
requests::$input_encoding = 'GB2312';
requests::$output_encoding = 'GB2312';
//獲取博客文章列表的文章url
for($i=1;$i<=10;$i++){
$url = "https://www.cnblogs.com/jcydd/default.html?page=".$i;
$html = requests::get($url);
//var_dump($html);
$selector = "/<a\sid=\"homepage1_HomePageDays_DaysList_ctl0\d_DayList_TitleUrl_\d\"\sclass=\"postTitle2\"\shref=\"(.*)\">/";
$result[] = selector::select($html, $selector,'regex');
}
//var_dump($result);

//根據url循環獲取文章標題和內容
  foreach($result as $k=> $v){
      foreach($v as $kk=>$vv){

    $html1 = requests::get($vv);
    //var_dump($html1);
    
    //獲取文章標題，正則表達式前后要加上@，我也不知道為什么
    $selector1 = "@<a\sid=\"cb_post_title_url\"\s(?:.)+?>(.*)</a>@";
    $result1 = selector::select($html1, $selector1,'regex');
    //var_dump($result1);
    
    //文章內容正則有點問題，有些內容獲取不到    
     $selector2 = "@<div\sid=\"cnblogs_post_body\"\sclass=\"blogpost-body\">((.|\n)*)<div\sid=\"MySignature\">@";     
    $result2 = selector::select($html1, $selector2,'regex');
    //var_dump($result2);
    //去除文章內容里的html標簽    
     $result2=preg_replace('/<[^<]*>/',"",$result2);   
     
     //寫入文件 
    $myfile = fopen("f".$k.$kk.".txt", "w") or die("Unable to open file!");
    fwrite($myfile, $result1);
    fwrite($myfile,"\r\n");
     foreach($result2 as $vvv){
        fwrite($myfile, $vvv);
    }
    
    fclose($myfile);  
 
 } 
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用python scrapy框架抓取cnblog 的文章內容網頁文章內容不讓復制怎么辦？ WordPress 獲取文章內容頁特色圖像地址 PHP 獲取一篇文章內容中的全部圖片，並下載織夢dedecms如何批量替換文章內容和縮略圖帝國cms文章內容tags關鍵詞設置調用方法以及tags靜態化 QMainWindow中直接添加LayOut是不可以的(解決方法看文章內容) 解決DEDE防止圖片撐破頁面，文章內容中的圖片自適應寬度 phpspider爬蟲框架的使用 DEDECMS采集規則,過濾,替換文章內的部分內容