Python爬蟲模擬登錄的github項目

項目地址：

https://github.com/CharlesPikachu/DecryptLogin

項目中文文檔：

https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/

Support List：

Websites	support PC API?	support mobile API?	in Chinese
weibo	✓	✓	新浪微博
douban	✓	✗	豆瓣
github	✓	✗	Github
music163	✓	✗	網易雲音樂
zt12306	✓	✗	中國鐵路12306
QQZone	✗	✓	QQ空間
QQQun	✗	✓	QQ群
QQId	✗	✓	我的QQ中心
zhihu	✓	✗	知乎
bilibili	✓	✓	B站
toutiao	✗	✓	今日頭條
taobao	✓	✗	淘寶
jingdong	✓	✗	京東
ifeng	✓	✗	鳳凰網
sohu	✓	✓	搜狐
zgconline	✓	✗	中關村在線
lagou	✓	✗	拉勾網
twitter	✓	✗	推特
Vultr	✓	✗	Vultr
eSurfing	✓	✗	天翼
renren	✓	✗	人人網
w3cschool	✓	✗	W3Cschool(編程獅)
fishc	✓	✗	魚C論壇
youdao	✓	✗	有道
baidupan	✓	✗	百度網盤
stackoverflow	✓	✗	stackoverflow

Some Cases by Using DecryptLogin：

Name	Introduction	code	in Chinese
weiboMonitor	click	click	微博監控
QQReport	click	click	生成QQ個人專屬報告
bilibiliDownloadUserVideos	click	click	下載B站指定UP主的所有視頻
NeteaseSongListDownloader	click	click	網易雲個人歌單下載器
NeteaseListenLeaderboard	click	click	網易雲個人聽歌排行榜
userWeiboSpider	click	click	下載指定微博用戶的所有微博數據
NeteaseSignin	click	click	網易雲音樂自動簽到
weiboEmoji	click	click	微博表情包爬取
weiboSender	click	click	大吼一聲發微博

Install

Pip install

run "pip install DecryptLogin"

Source code install

(1) Offline
Step1: git clone https://github.com/CharlesPikachu/DecryptLogin.git
Step2: cd DecryptLogin -> run "python setup.py install" (2) Online run "pip install git+https://github.com/CharlesPikachu/DecryptLogin.git@master"

Quick Start

from DecryptLogin import login
lg = login.Login()
infos_return, session = lg.douban(username[telephone], password, 'pc')
infos_return, session = lg.github(username[email], password, 'pc')
infos_return, session = lg.weibo(username[telephone], password, 'mobile')
infos_return, session = lg.music163(username[telephone/email], password, 'pc')
infos_return, session = lg.zt12306(username[telephone], password, 'pc')
infos_return, session = lg.QQZone('mobile')
infos_return, session = lg.QQQun('mobile')
infos_return, session = lg.QQId('mobile')
infos_return, session = lg.zhihu(username, password, 'pc')
infos_return, session = lg.bilibili(username, password, 'pc')
infos_return, session = lg.toutiao(username, password, 'mobile')
infos_return, session = lg.taobao('pc')
infos_return, session = lg.jingdong('pc')
infos_return, session = lg.ifeng(username, password, 'pc')
infos_return, session = lg.sohu(username, password, 'mobile')
infos_return, session = lg.zgconline(username, password, 'pc')
infos_return, session = lg.lagou(username, password, 'pc')
infos_return, session = lg.twitter(username, password, 'pc')
infos_return, session = lg.vultr(username, password, 'pc')
infos_return, session = lg.eSurfing(username, password, 'pc')
infos_return, session = lg.renren(username, password, 'pc')
infos_return, session = lg.w3cschool(username, password, 'pc')
infos_return, session = lg.fishc(username, password, 'pc')
infos_return, session = lg.youdao(username, password, 'pc')
infos_return, session = lg.baidupan(username, password, 'pc')
infos_return, session = lg.stackoverflow(username, password, 'pc')

Website login model

收集了一些各大網站登陸方式，和一些網站的爬蟲程序，有的是通過selenium登錄，有的是通過抓包直接模擬登錄，有的是利用scrapy,希望對小白有所幫助,本項目用於研究和分享各大網站的模擬登陸方式，和爬蟲程序，會持續更新。。。

About

模擬登陸基本采用的是直接登錄或者使用selenium+webdriver的方式，有的網站直接登錄難度很大，比如qq空間，bilibili等如果采用selenium就相對輕松一些。

雖然在登錄的時候采用的是selenium,為了效率，我們可以在登錄過后得到的cookie維護起來，然后調用requests或者scrapy等進行數據采集，這樣數據采集的速度可以得到保證。

Completed

catalogue

Test

Informations

一些爬蟲代碼

1.微信公眾號爬蟲

GitHub：github.com/Chyroc/Wech…
基於搜狗微信搜索的微信公眾號爬蟲接口，可以擴展成基於搜狗搜索的爬蟲，返回結果是列表，每一項均是公眾號具體信息字典。

2.豆瓣讀書爬蟲

GitHub：github.com/lanbing510/…
可以爬下豆瓣讀書標簽下的所有圖書，按評分排名依次存儲，存儲到Excel中，可方便大家篩選搜羅，比如篩選評價人數>1000的高分書籍；可依據不同的主題存儲到Excel不同的Sheet ，采用User Agent偽裝為瀏覽器進行爬取，並加入隨機延時來更好的模仿瀏覽器行為，避免爬蟲被封。

3.知乎爬蟲

GitHub：github.com/LiuRoy/zhih…
此項目的功能是爬取知乎用戶信息以及人際拓撲關系，爬蟲框架使用scrapy，數據存儲使用mongo

4.Bilibili用戶爬蟲

GitHub：github.com/airingursb/…
總數據數：20119918，抓取字段：用戶id，昵稱，性別，頭像，等級，經驗值，粉絲數，生日，地址，注冊時間，簽名，等級與經驗值等。抓取之后生成B站用戶數據報告。

5.新浪微博爬蟲
GitHub：github.com/LiuXingMing…
主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關注。代碼獲取新浪微博Cookie進行登錄，可通過多賬號登錄來防止新浪的反扒。主要使用 scrapy 爬蟲框架。

6.小說下載分布式爬蟲

GitHub：github.com/gnemoug/dis…
使用scrapy,Redis, MongoDB,graphite實現的一個分布式網絡爬蟲,底層存儲MongoDB集群,分布式使用Redis實現,爬蟲狀態顯示使用graphite實現，主要針對一個小說站點。

7.中國知網爬蟲
GitHub：github.com/yanzhou/Cnk…
設置檢索條件后，執行src/CnkiSpider.py抓取數據，抓取數據存儲在/data目錄下，每個數據文件的第一行為字段名稱。

8.鏈家網爬蟲

GitHub：github.com/lanbing510/…
爬取北京地區鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲一文的全部代碼，包括鏈家模擬登錄代碼。

9.京東爬蟲

GitHub：github.com/taizilongxu…
基於scrapy的京東網站爬蟲，保存格式為csv。

10.QQ 群爬蟲

GitHub：github.com/caspartse/Q…
批量抓取 QQ 群信息，包括群名稱、群號、群人數、群主、群簡介等內容，最終生成 XLS(X) / CSV 結果文件。

11.烏雲爬蟲

GitHub：github.com/hanc00l/woo…
烏雲公開漏洞、知識庫爬蟲和搜索。全部公開漏洞的列表和每個漏洞的文本內容存在MongoDB中，大概約2G內容；如果整站爬全部文本和圖片作為離線查詢，大概需要10G空間、2小時（10M電信帶寬）；爬取全部知識庫，總共約500M空間。漏洞搜索使用了Flask作為web server，bootstrap作為前端。

12.hao123網站爬蟲

GitHub：github.com/buckyrobert…
以hao123為入口頁面，滾動爬取外鏈，收集網址，並記錄網址上的內鏈和外鏈數目，記錄title等信息，windows7 32位上測試，目前每24個小時，可收集數據為10萬左右。

13.機票爬蟲（去哪兒和攜程網）

GitHub：github.com/fankcoder/f…
Findtrip是一個基於Scrapy的機票爬蟲，目前整合了國內兩大機票網站（去哪兒 + 攜程）。

14.基於requests、MySQLdb、torndb的網易客戶端內容爬蟲

GitHub：github.com/leyle/163sp…

15.豆瓣電影、書籍、小組、相冊、東西等爬蟲集

GitHub：github.com/fanpei91/do…

16.QQ空間爬蟲

GitHub：github.com/LiuXingMing…
包括日志、說說、個人信息等，一天可抓取 400 萬條數據。

17.百度mp3全站爬蟲，使用redis支持斷點續傳。

GitHub：github.com/Shu-Ji/baid…

18.淘寶和天貓的爬蟲

GitHub：github.com/pakoo/tbcra…
可以根據搜索關鍵詞,物品id來抓去頁面的信息，數據存儲在mongodb。

19.一個股票數據（滬深）爬蟲和選股策略測試框架

GitHub：github.com/benitoro/st…
根據選定的日期范圍抓取所有滬深兩市股票的行情數據。支持使用表達式定義選股策略。支持多線程處理。保存數據到JSON文件、CSV文件。