1小時教你學會如何采集微博數據:0基礎小白也能輕松學會!


為什么要學這門課?應用場景有哪些?

1、上班族與自媒體人:采集各類數據用於工作/運營實戰;
3、電商老板:采集競品數據,幫助分析決策;
3、找個副業:學會數據采集技能,網上接單賺錢。

 

常見數據采集方式
(1)人工采集:費時費力,出錯率高,工作效率非常低下。
(2)寫爬蟲采集:門檻略高,需會寫編程,寫完爬蟲再調試,門檻高耗時長。

一小時教你學會數據采集,無需編程知識,輕松采集所需數據,提高工作效率,解放生產力,多個副業多賺錢。 

 

講師介紹

微博ID@碼代碼的三哥

10+年互聯網從業經驗,科技公司技術副總監,精通數據處理、軟件開發。

 

它能采集什么樣的數據?

只要是電腦瀏覽器能打開的網站,它都可以采集。

 

它不能采集什么樣數據?

只有手機App沒有網站,這樣的數據不能采集。

 

學習本課所需工具

1、安裝谷歌瀏覽器

首先下載谷歌瀏覽器並安裝,https://www.google.cn/chrome/

 

 

2、下載、安裝爬蟲插件

1)下載插件: https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw  提取碼:86tn

2)把下載的壓縮包,復制到E盤根目錄,解壓,解壓后名稱為 webscraper_v0.5.3,如下圖:

 

 

 

3)下載並安裝谷歌插件,如下視頻

https://www.bilibili.com/video/BV1W54y1r7nt/

 

課程內容

 

數據采集的思路(從大到小,從整體到局部)

https://www.bilibili.com/video/BV1rT4y1F7cQ/

 

1手把手教你采集微博數據(帖子內容、轉、評、贊 數)

1)新建一個爬蟲; 

https://www.bilibili.com/video/BV1Vv411r7j1/

 

2)設置帖子數據框;

https://www.bilibili.com/video/BV1kA411j7CG/

 

3)設置發帖時間;

https://www.bilibili.com/video/BV1Py4y1z7Co/

 

4)設置帖子內容;

https://www.bilibili.com/video/BV1Ra411A7Fu/

 

5)設置 轉評贊數據框;

https://www.bilibili.com/video/BV1FZ4y157vy/

 

6)設置 轉評贊數據;

https://www.bilibili.com/video/BV1Ua4y1s743/

 

7)采集並核對數據;

https://www.bilibili.com/video/BV1iV41127yD/

 

8)如何讓帖子按時間排序,采集隱藏的完整發帖時間;

https://www.bilibili.com/video/BV1Br4y1w72x/

 

9)如何采集多個頁面的帖子數據

https://www.bilibili.com/video/BV1Ra411c7jL/

 

 

2、數據采集思路詳解(采集數據就是找規律)

1)分析規律,先整體后局部,整體--》整個數據框,局部 —》某一個數據項 

 

 

 

 

 

 

2)數據框類型介紹,常用的3種類型:

普通類型 Element

鼠標滾動類型 Element scroll down

鼠標點擊類型 Element click

本節課用到了 Element 和 Element scroll down。

怎么選擇類型,根據是否有特效來決定,無特效選Element,鼠標滾動選 Element scroll down,需要點擊鼠標選Element click ,后面課程會對每一種類型做講解和演示。

 

3)數據項類型介紹:

text 普通文本

image 圖片

link 連接

Element attribute 某個元素的屬性(高級用法)

本課程用到了text和Element attribute。

怎么選擇數據類型,普通文本選text,圖片選image,鏈接選link,Element attribute需要一點網頁知識。 

------------------

text 類型的使用

 

 

 

 

------------------

Element attribute 類型的使用

 

 

 

 

 

4)如何采集多頁數據:用3個頁面的url來分析分頁的規律;

研究采集網址的規律,找出分頁參數,然后設置參數,比如采集1到10頁,設置為[1-10]。

第一頁:https://weibo.com/2644160831/profile?topnav=1&wvr=6&is_all=1

第二頁:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop

第三頁:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=3#feedtop

第四頁:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=4#feedtop

 

總結規律得出 page=x 是頁面參數

所以采集1到10頁面我們設置url為 

https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=[1-10]#feedtop

 

最后是互動問答時間

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM