原文:高楼迷论坛南京版数据爬取

目标网址:http: www.gaoloumi.com forum.php mod forumdisplay amp fid amp page page后面加的数字就是论坛内容的页面数,可以通过改变其值获取南京版的所有页面。 目标:我们知道帖子的名称代表着其内容的主要思想,所以可以通过抓取所有帖子名称来对其进行内容挖掘。 步骤: 抓取网页帖子的名称,保存在文本文件中。 使用jieba分词工具可以实 ...

2018-02-26 13:30 0 1980 推荐指数:

查看详情

Python句子-莎士比亚语录

句子——莎士比亚语录(约2290个句子,229个分页) 这个练手的过程,在我不使用IP代理的情况下,我使用的IP惨遭封禁数次,好在隔几个小时就会被解封,但我却好比黏人的鼻涕虫一般,句子不给我,我就不走了,哼哼。 工具使用的是 Python3.7 + requests ...

Tue Dec 11 07:15:00 CST 2018 0 834
简易python爬虫 - 站长论坛信息

目标: 收集网站帖子里发帖人用户名,发帖人ID;帖子的ID,发帖内容;网站title 提前需要准备的python库 pip3 install requests //用于获得网站的源码 pip3 install bs4 //解析遍历网站标签 pip3 install urllib ...

Tue Apr 16 08:35:00 CST 2019 1 798
python 网络爬虫(一)天涯论坛评论

我是一个大二的学生,也是刚接触python,接触了爬虫感觉爬虫很有趣就天涯论坛,中途碰到了很多问题,就想把这些问题分享出来, 都是些简单的问题,希望大佬们以宽容的眼光来看一个小菜鸟😄,这也是我第一次写博客,代码有哪里写的不好的地方,需要改进的地方希 望大家也可以帮我指出。 用到的包 ...

Mon Apr 16 04:58:00 CST 2018 1 3031
数据和分析

涉及: 使用Requests进行网页 使用BeautifulSoup进行HTML解析 正则表达式入门 使用潜在狄利克雷分布模型解析话题提取 简单页面的 1.准备Requests库和User Agent 安装 pip install requests ...

Fri May 10 21:14:00 CST 2019 0 1630
通过api数据

一、 通过api数据步骤 1.设置请求头 2.使用requests包api地址 3.把返回的json保存到字典中(使用json包的loads方法) 二、示例代码 ...

Sat Jul 24 23:02:00 CST 2021 0 146
某APP的数据

好久没写博客了,也许人还处在迷茫状态一天浑浑噩噩的。最近写了一个爬虫脚本某APP的用户厂商数据,由于数据有12W+加上sleep的时间跑起来花费的时间很长。所以我将脚本分开写了先抓一级页面的请求参数再抓二级页面的详细数据,也可以将两个脚本合并,抓到的请求参数会存放在列表中在二脚本循环读取。数据 ...

Fri Oct 15 23:48:00 CST 2021 0 187
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM