C# 學習之路--百度網盤爬蟲設計與實現(一)


百度網盤爬蟲

現在市面上出現了很多網盤搜索引擎,寫這系列博文及爬蟲程序的初衷:

  • 更方面的查找資源

  • 學習C#

  • 學習爬蟲的設計與實現

  • 記錄學習歷程

  • 自我監督

    能力有限,如有不妥之處,還請各位看官點評。同在學習的網友~與君共勉。

工具/庫選擇
  • mysql5.6 (習慣使然,sqlserver比較龐大,個人使用起來不是很習慣,后期可能改為sqlserver)

  • HttpWebRequestHttpWebResponseJSON.NET

  • vs2015, .NET4.5

    PS:介紹以上是權當做個備忘錄/提示。

百度網盤搜索流程
此爬蟲原理是通過爬取用戶的分享/專輯保存鏈接來達到資源搜索的目的,而用戶與用戶之間通過訂閱/關注來聯系,慢慢形成一個龐大的爬蟲網絡。
  1. 首先設定爬取用戶(初始化爬蟲隊列)。

  2. 遍歷用戶分享/專輯,更改隊列狀態。

  3. 將用戶訂閱/關注用戶加入隊列。

  4. 重復以上步驟。

    PS:看似簡單的流程,想要精工還需細磨。

獲取百度網盤推薦用戶
當沒有訂閱任何用戶時,網盤的分享動態界面會出現一些用戶噢。這是系統推薦的用戶,雖然改動不一定會很大,但是可以作為爬蟲的初始用戶來處理(這種推薦用戶聽說關注的人都不少噢)

接口返回信息:

errorno: 狀態碼
request_id:請求ID
hotuser_list:用戶列表

用戶列表結構:

type:類型(通常返回-1,不明用途)
hot_uname:用戶昵稱
avatar_url:頭像縮略圖地址
intro:描述
follow_count:訂閱人數
fans_count:粉絲人數
user_type:用戶類型?(不明意義)
is_vip:是否為VIP
pubshare_count:分享數
hot_uk:不知道啥玩意
album_count:分享專輯數
END
暫時就寫到這兒了,要去寫代碼了~ 寫完再會


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM