DecryptLogin
項目地址:
https://github.com/CharlesPikachu/DecryptLogin
項目中文文檔:
https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/
Support List:
Websites | support PC API? | support mobile API? | in Chinese |
---|---|---|---|
✓ | ✓ | 新浪微博 | |
douban | ✓ | ✗ | 豆瓣 |
github | ✓ | ✗ | Github |
music163 | ✓ | ✗ | 網易雲音樂 |
zt12306 | ✓ | ✗ | 中國鐵路12306 |
QQZone | ✗ | ✓ | QQ空間 |
QQQun | ✗ | ✓ | QQ群 |
QQId | ✗ | ✓ | 我的QQ中心 |
zhihu | ✓ | ✗ | 知乎 |
bilibili | ✓ | ✓ | B站 |
toutiao | ✗ | ✓ | 今日頭條 |
taobao | ✓ | ✗ | 淘寶 |
jingdong | ✓ | ✗ | 京東 |
ifeng | ✓ | ✗ | 鳳凰網 |
sohu | ✓ | ✓ | 搜狐 |
zgconline | ✓ | ✗ | 中關村在線 |
lagou | ✓ | ✗ | 拉勾網 |
✓ | ✗ | 推特 | |
Vultr | ✓ | ✗ | Vultr |
eSurfing | ✓ | ✗ | 天翼 |
renren | ✓ | ✗ | 人人網 |
w3cschool | ✓ | ✗ | W3Cschool(編程獅) |
fishc | ✓ | ✗ | 魚C論壇 |
youdao | ✓ | ✗ | 有道 |
baidupan | ✓ | ✗ | 百度網盤 |
stackoverflow | ✓ | ✗ | stackoverflow |
Some Cases by Using DecryptLogin:
Name | Introduction | code | in Chinese |
---|---|---|---|
weiboMonitor | click | click | 微博監控 |
QQReport | click | click | 生成QQ個人專屬報告 |
bilibiliDownloadUserVideos | click | click | 下載B站指定UP主的所有視頻 |
NeteaseSongListDownloader | click | click | 網易雲個人歌單下載器 |
NeteaseListenLeaderboard | click | click | 網易雲個人聽歌排行榜 |
userWeiboSpider | click | click | 下載指定微博用戶的所有微博數據 |
NeteaseSignin | click | click | 網易雲音樂自動簽到 |
weiboEmoji | click | click | 微博表情包爬取 |
weiboSender | click | click | 大吼一聲發微博 |
Install
run "pip install DecryptLogin"
Source code install
(1) Offline
Step1: git clone https://github.com/CharlesPikachu/DecryptLogin.git
Step2: cd DecryptLogin -> run "python setup.py install" (2) Online run "pip install git+https://github.com/CharlesPikachu/DecryptLogin.git@master"
Quick Start
from DecryptLogin import login lg = login.Login() infos_return, session = lg.douban(username[telephone], password, 'pc') infos_return, session = lg.github(username[email], password, 'pc') infos_return, session = lg.weibo(username[telephone], password, 'mobile') infos_return, session = lg.music163(username[telephone/email], password, 'pc') infos_return, session = lg.zt12306(username[telephone], password, 'pc') infos_return, session = lg.QQZone('mobile') infos_return, session = lg.QQQun('mobile') infos_return, session = lg.QQId('mobile') infos_return, session = lg.zhihu(username, password, 'pc') infos_return, session = lg.bilibili(username, password, 'pc') infos_return, session = lg.toutiao(username, password, 'mobile') infos_return, session = lg.taobao('pc') infos_return, session = lg.jingdong('pc') infos_return, session = lg.ifeng(username, password, 'pc') infos_return, session = lg.sohu(username, password, 'mobile') infos_return, session = lg.zgconline(username, password, 'pc') infos_return, session = lg.lagou(username, password, 'pc') infos_return, session = lg.twitter(username, password, 'pc') infos_return, session = lg.vultr(username, password, 'pc') infos_return, session = lg.eSurfing(username, password, 'pc') infos_return, session = lg.renren(username, password, 'pc') infos_return, session = lg.w3cschool(username, password, 'pc') infos_return, session = lg.fishc(username, password, 'pc') infos_return, session = lg.youdao(username, password, 'pc') infos_return, session = lg.baidupan(username, password, 'pc') infos_return, session = lg.stackoverflow(username, password, 'pc')
Website login model
收集了一些各大網站登陸方式, 和一些網站的爬蟲程序,有的是通過selenium登錄,有的是通過抓包直接模擬登錄,有的是利用scrapy,希望對小白有所幫助,本項目用於研究和分享各大網站的模擬登陸方式,和爬蟲程序,會持續更新。。。
About
模擬登陸基本采用的是直接登錄或者使用selenium+webdriver的方式,有的網站直接登錄難度很大,比如qq空間,bilibili等如果采用selenium就相對輕松一些。
雖然在登錄的時候采用的是selenium,為了效率,我們可以在登錄過后得到的cookie維護起來,然后調用requests或者scrapy等進行數據采集,這樣數據采集的速度可以得到保證。
Completed
- 微博網頁版
- 知乎
- QQZone
- CSDN
- 淘寶-接口修復完成-可用
- CSDN--已重構
- Baidu
- 果殼
- JingDong 模擬登錄和自動申請京東試用
- 163mail
- 拉鈎
- Bilibili
- 豆瓣
- 豆瓣spider
- Baidu
- 獵聘網
- 微信網頁版登錄並獲取好友列表
- Github
- 爬取圖蟲相應的圖片
- 網易雲音樂
- 糗事百科--改為協程版
- 百度貼吧spider
- 百度翻譯
catalogue
- Facebook模擬登錄
- 微博網頁版模擬登錄
- 知乎模擬登錄
- QQZone模擬登錄
- CSDN模擬登錄--已恢復
- 淘寶爬蟲--重構中
- Baidu模擬登錄一
- 果殼爬蟲程序
- JingDong 模擬登錄和自動申請京東試用
- 163mail--已恢復
- 拉鈎模擬登錄--已失效
- Bilibili模擬登錄
- 豆瓣
- Baidu2模擬登錄
- 獵聘網模擬登錄
- 微信網頁版登錄並獲取好友列表
- Github模擬登錄兩種解決方案都可行
- 爬取圖蟲想要的圖片
- 網易雲音樂downloader
- 糗事百科爬蟲
- 淘寶登陸-訪問
Test
Informations
- 為感謝你們的支持,准備寫一套免費爬蟲的教程,保證你學會以后可以爬取市面上大部分的網站,教程地址
一些爬蟲代碼
1.微信公眾號爬蟲
GitHub:github.com/Chyroc/Wech…
基於搜狗微信搜索的微信公眾號爬蟲接口,可以擴展成基於搜狗搜索的爬蟲,返回結果是列表,每一項均是公眾號具體信息字典。
2.豆瓣讀書爬蟲
GitHub:github.com/lanbing510/…
可以爬下豆瓣讀書標簽下的所有圖書,按評分排名依次存儲,存儲到Excel中,可方便大家篩選搜羅,比如篩選評價人數>1000的高分書籍;可依據不同的主題存儲到Excel不同的Sheet ,采用User Agent偽裝為瀏覽器進行爬取,並加入隨機延時來更好的模仿瀏覽器行為,避免爬蟲被封。
3.知乎爬蟲
GitHub:github.com/LiuRoy/zhih…
此項目的功能是爬取知乎用戶信息以及人際拓撲關系,爬蟲框架使用scrapy,數據存儲使用mongo
4.Bilibili用戶爬蟲
GitHub:github.com/airingursb/…
總數據數:20119918,抓取字段:用戶id,昵稱,性別,頭像,等級,經驗值,粉絲數,生日,地址,注冊時間,簽名,等級與經驗值等。抓取之后生成B站用戶數據報告。
5.新浪微博爬蟲
GitHub:github.com/LiuXingMing…
主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關注。代碼獲取新浪微博Cookie進行登錄,可通過多賬號登錄來防止新浪的反扒。主要使用 scrapy 爬蟲框架。
6.小說下載分布式爬蟲
GitHub:github.com/gnemoug/dis…
使用scrapy,Redis, MongoDB,graphite實現的一個分布式網絡爬蟲,底層存儲MongoDB集群,分布式使用Redis實現,爬蟲狀態顯示使用graphite實現,主要針對一個小說站點。
7.中國知網爬蟲
GitHub:github.com/yanzhou/Cnk…
設置檢索條件后,執行src/CnkiSpider.py抓取數據,抓取數據存儲在/data目錄下,每個數據文件的第一行為字段名稱。
8.鏈家網爬蟲
GitHub:github.com/lanbing510/…
爬取北京地區鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。
9.京東爬蟲
GitHub:github.com/taizilongxu…
基於scrapy的京東網站爬蟲,保存格式為csv。
10.QQ 群爬蟲
GitHub:github.com/caspartse/Q…
批量抓取 QQ 群信息,包括群名稱、群號、群人數、群主、群簡介等內容,最終生成 XLS(X) / CSV 結果文件。
11.烏雲爬蟲
GitHub:github.com/hanc00l/woo…
烏雲公開漏洞、知識庫爬蟲和搜索。全部公開漏洞的列表和每個漏洞的文本內容存在MongoDB中,大概約2G內容;如果整站爬全部文本和圖片作為離線查詢,大概需要10G空間、2小時(10M電信帶寬);爬取全部知識庫,總共約500M空間。漏洞搜索使用了Flask作為web server,bootstrap作為前端。
12.hao123網站爬蟲
GitHub:github.com/buckyrobert…
以hao123為入口頁面,滾動爬取外鏈,收集網址,並記錄網址上的內鏈和外鏈數目,記錄title等信息,windows7 32位上測試,目前每24個小時,可收集數據為10萬左右。
13.機票爬蟲(去哪兒和攜程網)
GitHub:github.com/fankcoder/f…
Findtrip是一個基於Scrapy的機票爬蟲,目前整合了國內兩大機票網站(去哪兒 + 攜程)。
14.基於requests、MySQLdb、torndb的網易客戶端內容爬蟲
GitHub:github.com/leyle/163sp…
15.豆瓣電影、書籍、小組、相冊、東西等爬蟲集
GitHub:github.com/fanpei91/do…
16.QQ空間爬蟲
GitHub:github.com/LiuXingMing…
包括日志、說說、個人信息等,一天可抓取 400 萬條數據。
17.百度mp3全站爬蟲,使用redis支持斷點續傳。
GitHub:github.com/Shu-Ji/baid…
18.淘寶和天貓的爬蟲
GitHub:github.com/pakoo/tbcra…
可以根據搜索關鍵詞,物品id來抓去頁面的信息,數據存儲在mongodb。
19.一個股票數據(滬深)爬蟲和選股策略測試框架
GitHub:github.com/benitoro/st…
根據選定的日期范圍抓取所有滬深兩市股票的行情數據。支持使用表達式定義選股策略。支持多線程處理。保存數據到JSON文件、CSV文件。