PHP使用表正則表達式獲取HTML內容


昨天有個朋友在問我說,php怎么抓取網頁某個DIV區塊的內容。像funp推推王那樣每次推文都會顯示文章內的圖片,提供縮圖撰擇,又是怎么做到的?其實這語法出乎意料的簡短…

1. 取得指定網頁內的所有圖片:測試
開新視窗複製代碼列印?

    <?php
    //取得指定位址的內容,並儲存至text
    $text=file_get_contents('http://www.zhix.net/');
    //取得所有img標識,並儲存至二維陣列match
    preg_match_all('#<img[^>]*>#i', $text, $match);
    //印出match
    print_r($match);
    ?>

 2. 取得指定網頁內的第一張圖片:測試
開新視窗復制代碼列印?

    <?php
    //取得指定位址的內容,並儲存至text
    $text=file_get_contents('http://www.zhix.net/');
    //取得第一個img,並儲存至陣列match(regex語法與上述同義)
    preg_match('/<img[^>]*>/Ui', $text, $match);
    //印出match
    print_r($match);
    ?>

 3. 取得指定網頁內的特定div區塊:測試

<?php
    //取得指定位址的內容,並儲存至text
    $text=file_get_contents('http://www.zhix.net/2018/01/');
    //去除換行及空白字元(序列化內容才需使用)
    //$text=str_replace(array("r","n","t","s"), '', $text);
    //取出div且id為PostContent的內容,並儲存至陣列match
    preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) </div>/si',$text,$match);
    //印出match[0]
    print($match[0]);
    ?>

 4. 上述2及3的結合:測試

<?php
    //取得指定位址的內容,並儲存至text
    $text=file_get_contents('http://www.zhix.net/2018/01/');
    //取出div標籤且id為PostContent的內容,並儲存至陣列match
    preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) </div>/si',$text,$match);
    //取得第一個img,並儲存至陣列match2
    preg_match('/<img[^>]*>/Ui', $match[0], $match2);
    //印出match2[0]
    print_r($match2[0]);
?>

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM