百度網盤爬蟲
現在市面上出現了很多網盤搜索引擎,寫這系列博文及爬蟲程序的初衷:
-
更方面的查找資源
-
學習C#
-
學習爬蟲的設計與實現
-
記錄學習歷程
-
自我監督
能力有限,如有不妥之處,還請各位看官點評。同在學習的網友~與君共勉。
工具/庫選擇
-
mysql5.6 (習慣使然,sqlserver比較龐大,個人使用起來不是很習慣,后期可能改為sqlserver)
-
HttpWebRequest
、HttpWebResponse
、JSON.NET
庫 -
vs2015, .NET4.5
PS:介紹以上是權當做個備忘錄/提示。
百度網盤搜索流程
此爬蟲原理是通過爬取用戶的分享/專輯保存鏈接來達到資源搜索的目的,而用戶與用戶之間通過訂閱/關注來聯系,慢慢形成一個龐大的爬蟲網絡。
-
首先設定爬取用戶(初始化爬蟲隊列)。
-
遍歷用戶分享/專輯,更改隊列狀態。
-
將用戶訂閱/關注用戶加入隊列。
-
重復以上步驟。
PS:看似簡單的流程,想要精工還需細磨。
獲取百度網盤推薦用戶
當沒有訂閱任何用戶時,網盤的分享動態界面會出現一些用戶噢。這是系統推薦的用戶,雖然改動不一定會很大,但是可以作為爬蟲的初始用戶來處理(這種推薦用戶聽說關注的人都不少噢)
接口返回信息:
errorno: 狀態碼
request_id:請求ID
hotuser_list:用戶列表
用戶列表結構:
type:類型(通常返回-1,不明用途)
hot_uname:用戶昵稱
avatar_url:頭像縮略圖地址
intro:描述
follow_count:訂閱人數
fans_count:粉絲人數
user_type:用戶類型?(不明意義)
is_vip:是否為VIP
pubshare_count:分享數
hot_uk:不知道啥玩意
album_count:分享專輯數
END
暫時就寫到這兒了,要去寫代碼了~ 寫完再會