5分鍾，6行代碼教你寫爬蟲！（python）

本文轉載自查看原文 2022-04-19 14:41 2454

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬數據的網址
page=requests.Session().get(url) 
tree=html.fromstring(page.text) 
result=tree.xpath('//td[@class="title"]//a/text()') #獲取需要的數據

下面開始簡單介紹如何寫爬蟲。
爬蟲前，我們首先簡單明確兩點：
1. 爬蟲的網址；
2. 需要爬取的內容（數據）。

第一步，爬蟲的網址，這個…那就豆瓣吧，我也不知道為啥爬蟲教程都要拿豆瓣開刀–！
第二部，需要爬取的內容（數據）。
這也正是上面6行代碼中的最后一行，也可能是新手覺得最難的地方了。代碼的這個部分就是獲取數據。

'//td[@class="title"]//a/text()'
1
下面來一步一步操作如何寫出上面的那行代碼
1. 打開網址https://movie.douban.com/，然后按一下F12。
2. 鼠標點擊圖中的按鈕。

鼠標點擊需要爬取的數據，這里我們點“看不見的客人”，如圖所示。

看到大紅色框框里的東西，是不是和我們最“重要”的代碼有很多相似的地方。
再看來最后一行代碼中最“重要”的部分。
‘//td[@class=”title”]//a/text()’
//td ：這個相當於指定是大目錄；
[@class=”title”]：這個相當於指定的小目錄；
//a ：這個相當於最小的目錄；
/text()：這個是提取其中的數據。
爬蟲介紹結束，看完你也該試試手了。
試試爬“即將上映”

這個只需將最后一行代碼改成

result=tree.xpath('//li[@class="title"]//a/text()')

如圖所示“即將上映”的電影就被你爬下來了。

是不是感覺爬蟲很簡單，已經會了。
現實中，在爬蟲乎面臨很多問題，比如：
1. 頁面規則不統一；
2. 爬下來的數據處理；
3. 反爬蟲機制。
還有很多類似的各種問題，想要深入變成大神，還是需要一步一步來，5分鍾變大神是不可能啦~~！
上面6行代碼包括的內容有python requests包，html知識，XPATH等。網上資料很多，這里就不做介紹了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 10分鍾教你用python 30行代碼搞定簡單手寫識別！ 10分鍾教你Python爬蟲（上）-- HTML和爬蟲基礎【python】10分鍾教你用python一行代碼搞點大新聞 10分鍾教你Python爬蟲（下）--爬蟲的基本模塊與簡單的實戰只需2行代碼，1分鍾教你實現微信多開【python】10分鍾教你用python如何正確把妹 10分鍾教你用Python寫一個貪吃蛇小游戲，適合練手項目 python scrapy 入門,10分鍾完成一個爬蟲 8分鍾丨教你玩轉 API 五分鍾30行代碼使用Python制作熊貓表情包（圖片字符化）(附有源碼逐行分析)