此次要实现的目标是登录12306网站和查看火车票信息。 具体步骤 一、登录 登录功能是通过使用selenium实现的,用到了超级鹰来识别验证码。没有超级鹰账号的先注册一个账号,充值一点题分,然后把下载这个Python接口文件,再在里面添加一个use_cjy的函数,以后使用的时候传入 ...
一 写在前面 当你看着你的博客的阅读量慢慢增加的时候,内心不禁有了些小激动,但是不得不吐槽一下 博客园并不会显示你的博客的总阅读量是多少。而这一篇博客就将教你怎么利用队列这种结构来编写爬虫,最终获取你的博客的总阅读量。 二 必备知识 队列是常用数据结构之一,在Python 中要用queue这个模块来实现。queue这个模块实现了三种队列: class queue.Queue maxsize :FI ...
2019-03-11 14:38 0 900 推荐指数:
此次要实现的目标是登录12306网站和查看火车票信息。 具体步骤 一、登录 登录功能是通过使用selenium实现的,用到了超级鹰来识别验证码。没有超级鹰账号的先注册一个账号,充值一点题分,然后把下载这个Python接口文件,再在里面添加一个use_cjy的函数,以后使用的时候传入 ...
一.网络爬虫(Web Crawler) 1.网络爬虫:是一种按照一定的规则,自动地抓取网上信息的程序或者脚本。 2.爬虫:为了获取网上大量的我们能看的到或看不到的数据 3.基本步骤:(1)定位要爬的网页地址;(2)获取网址的html文档;(3)解析网址的html文档;(4)搜寻要下载的数据 ...
最近在抽空学了一下python,于量就拿爬是练了下手,不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。 #test rdp import urllib.request import re ...
(1)使用制作python爬虫 这篇文章足够带你学会如何制作爬虫:https://www.jianshu.com/p/486869f23959 (2)在linux搭建python环境,可以查看我搭建环境的随笔 http://www.cnblogs.com/mituxiaogaoyang/p ...
在网上找到了一份斗鱼弹幕服务器第三方接入协议v1.6.2,有了第三方接口,做起来就容易多了。 一、协议分析 斗鱼后台协议头设计如下: 这里的消息长度是我们发送的数据部分的长度和头部的 ...
一、什么是爬虫 首先简单的理解一下爬虫。即请求网站并且提取自己所需的数据的一个过程。至于怎么爬,将是后面进行学习的内容,暂且不必深究。通过我们的程序,可以代替我们向服务器发送请求,然后进行批量、大量的数据的下载。 二、爬虫的基本流程 发起请求:通过url向服务器发起 ...
一、写在前面 我在以前写过一次12306网站的爬虫,当时实现了模拟登录和查询车票,但是感觉还不太够,所以对之前的代码加以修改,还实现了一个订购车票的功能。 二、主要思路 在使用Selenium做模拟登录12306网站的时候,需要将登录成功后的Cookie保存下来,这个Cookie ...