5分钟，6行代码教你写爬虫！（python）

本文转载自查看原文 2022-04-19 14:41 2454

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url) 
tree=html.fromstring(page.text) 
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据

下面开始简单介绍如何写爬虫。
爬虫前，我们首先简单明确两点：
1. 爬虫的网址；
2. 需要爬取的内容（数据）。

第一步，爬虫的网址，这个…那就豆瓣吧，我也不知道为啥爬虫教程都要拿豆瓣开刀–！
第二部，需要爬取的内容（数据）。
这也正是上面6行代码中的最后一行，也可能是新手觉得最难的地方了。代码的这个部分就是获取数据。

'//td[@class="title"]//a/text()'
1
下面来一步一步操作如何写出上面的那行代码
1. 打开网址https://movie.douban.com/，然后按一下F12。
2. 鼠标点击图中的按钮。

鼠标点击需要爬取的数据，这里我们点“看不见的客人”，如图所示。

看到大红色框框里的东西，是不是和我们最“重要”的代码有很多相似的地方。
再看来最后一行代码中最“重要”的部分。
‘//td[@class=”title”]//a/text()’
//td ：这个相当于指定是大目录；
[@class=”title”]：这个相当于指定的小目录；
//a ：这个相当于最小的目录；
/text()：这个是提取其中的数据。
爬虫介绍结束，看完你也该试试手了。
试试爬“即将上映”

这个只需将最后一行代码改成

result=tree.xpath('//li[@class="title"]//a/text()')

如图所示“即将上映”的电影就被你爬下来了。

是不是感觉爬虫很简单，已经会了。
现实中，在爬虫乎面临很多问题，比如：
1. 页面规则不统一；
2. 爬下来的数据处理；
3. 反爬虫机制。
还有很多类似的各种问题，想要深入变成大神，还是需要一步一步来，5分钟变大神是不可能啦~~！
上面6行代码包括的内容有python requests包，html知识，XPATH等。网上资料很多，这里就不做介绍了。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 10分钟教你用python 30行代码搞定简单手写识别！ 10分钟教你Python爬虫（上）-- HTML和爬虫基础【python】10分钟教你用python一行代码搞点大新闻 10分钟教你Python爬虫（下）--爬虫的基本模块与简单的实战只需2行代码，1分钟教你实现微信多开【python】10分钟教你用python如何正确把妹 10分钟教你用Python写一个贪吃蛇小游戏，适合练手项目 python scrapy 入门,10分钟完成一个爬虫 8分钟丨教你玩转 API 五分钟30行代码使用Python制作熊猫表情包（图片字符化）(附有源码逐行分析)