因为项目原因,我被领导委任爬取微博用户的一些信息,而作为一个爬虫经验几乎为0的python非老司机,开始了漫长的研究之路。。。。 在了解了爬虫的基本工具和著名框架scrapy后 博主还是决定自己参考网上的各路大神的脚本,写一个登录脚本。。。。 环境 tools 1、Chrome ...
最近在研究新浪微博,发现新浪微博采取的RSA 的加密方式,见此链接:http: hi.baidu.com enmzqbeadvfhiye item b e cd edfa bad 。 其中的算法是观察新浪微博的js中发现的,地址:http: login.sina.com.cn js sso ssologin.js 代码是经过混淆的 。 刚开始的思路是想用C 的算法去模拟js的算法,后来发现还挺麻烦 ...
2013-03-25 10:48 2 3530 推荐指数:
因为项目原因,我被领导委任爬取微博用户的一些信息,而作为一个爬虫经验几乎为0的python非老司机,开始了漫长的研究之路。。。。 在了解了爬虫的基本工具和著名框架scrapy后 博主还是决定自己参考网上的各路大神的脚本,写一个登录脚本。。。。 环境 tools 1、Chrome ...
进行的整理,希望对通过编程实现微博爬虫的朋友们提供帮助。 由于本人使用用的是Python语言,以下内 ...
应该先说,本来相对网页加载的程序段进行规范的,但是,当再次编写的时候发现,还是不能很好的掌握网页加载的具体规则,导致获取页面的代码还是很繁杂。其他部分改的差不多了,还有就是当微博中的字符含有{}等时,会提示字符串格式错误,这个也该需要改进的,,还没改进,程序还需要一个挂空线程的功能,保留现场 ...
毕设题目要使用到新浪微博数据,所以要爬取新浪微博的数据。一般而言,新浪微博的爬虫有两种模式:新浪官方API和模拟登录新浪微博。两种方法的异同点和适用情况就无须赘述了。前辈的文章已经非常多了。写这篇文章主要记录自己的探究过程。 参考文章:1,解析新浪微博的登录 ...
这几天一直在研究新浪微博的爬虫,发现爬取微博的数据首先要登录。本来打算是通过账号和密码模拟浏览器登录。但是现在微博的登录机制比较复杂。通过账号密码还没有登录成功QAQ。所以就先记录下,通过cookie直接访问自己的微博主页。 微博登录的认证过程 微博登录的细节在其他的博客里已经有了详细的介绍 ...
Selenium的配置 在项目中引入Selenium库 下载chromedriver.exe 在项目代码中加入chromedriver位置的配置 使 ...
本来给自己定了个2018的目标,平均每月写两篇文章,现在已经快三月了,第一篇稿子才憋出来,惭愧呀,直入主题吧,今天给大家带来的是新浪微博PC端的模拟登陆。 工具 这次使用的工具是Charles和chrome浏览器,看过我之前文章的同学应该知道我使用的Mac电脑,Fiddler不能用,之前 ...
注册新浪微博应用将会获得该应用的App Key和Secret Key,您可以通过这两个Key您可以在灯鹭控制台完成与新浪微博的对接。App Key是应用的唯一标识,开放平台通过App Key来鉴别应用的身份。 AppSecret是给应用分配的密钥,您需要妥善保存这个密钥,这个密钥用来保证应用 ...