原文:python3爬虫再探之EXCEL

在爬取数据之后,数据的保存就成为一个新的问题,一般不太大的的数据存储到EXCEL就可以了。这里介绍一个python的第三方库 xlsxwriter. 这个库的安装就不介绍了,pip就可以,不用翻墙。这里仅介绍一些简单常用的命令。 首先,说明一下,xlsxwriter只能写入数据,不能读取和修改数据 读取和修改可以用xlrd和xlwt 。上代码。 ...

2016-07-09 10:20 0 1652 推荐指数:

查看详情

爬虫-Python3 urllib.request获取页面数据

使用Python3 urllib.request中的Requests()和urlopen()方法获取页面源码,并用re正则进行正则匹配查找需要的数据。 运行:python forex.py 输出: Hexun ERUUSD:Cur | Open ...

Mon Jun 05 01:32:00 CST 2017 0 3335
爬虫实战(三)———爬取动态加载页面——selenium

    自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆。目前正在不断学习相关知识。下面简单写一下用selenium处理动态加载页面相关的知识。目标——抓取页面所有的高考录取分数信息。     对于动态加载,开始的时候是看到 ...

Sat Jul 23 07:01:00 CST 2016 6 21358
motan

前言:上周使用motan是通过group远程调用超级土豆的服务,但是因为我需要写一些服务,不得不在本地启动服务,于是就详细的自己配置了一次motan。 上一篇博客也说到了,motan主要有3部分组成 ...

Fri Aug 24 18:45:00 CST 2018 1 689
爬虫实战(五)———爬取APP数据——超级课程表【一】

    关于爬虫,开始以为只能爬取网页数据,后来知道APP也能抓取。于是,在学校利用空闲时间,耗时两周实现了数据的抓取和简单的数据分析。     目标,抓取超级课程表XX大学(其实是我们大学啦。。。)学生20000条发帖信息。思路如下:     STEP1:为我们的爬虫找到入口 ...

Thu Jul 28 20:57:00 CST 2016 1 16766
爬虫实战(五)———爬取APP数据——超级课程表【二】——词频分析

    上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。     这里一共分析了三个方面:TOP10 word;时间与发帖量的关系 ...

Thu Jul 28 21:29:00 CST 2016 0 1674
爬虫实战(五)———爬取APP数据——超级课程表【四】——情感分析

    仔细看的话,会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333. 言归正传,今天刚了解到boson公司有python关于自然语言处理的API,于是试着用了一下,官方文档很不错,简单明了。首先是 ...

Fri Jul 29 01:26:00 CST 2016 0 1634
爬虫实战(一)——爬取智联招聘职位信息

  本人呢,算是学统计的,就想着爬一下智联的统计岗位信息,嗯,岗位很强势。。。   这里用了requests,bs4进行抓取与解析,数据存入mysql数据库。代码比较乱,先凑和着看,有时间整理吧。。。 import requests from bs4 import ...

Sun Jul 10 19:00:00 CST 2016 3 5484
爬虫实战(四)———爬取动态加载页面——请求json

    还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息。     第一步,检查元素,看图如下:     过滤出JS文件,并找出包含要抓取信息的js ...

Sat Jul 23 08:39:00 CST 2016 2 9908
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM