為什么要學這門課?應用場景有哪些?
1、上班族與自媒體人:采集各類數據用於工作/運營實戰;
3、電商老板:采集競品數據,幫助分析決策;
3、找個副業:學會數據采集技能,網上接單賺錢。
常見數據采集方式
(1)人工采集:費時費力,出錯率高,工作效率非常低下。
(2)寫爬蟲采集:門檻略高,需會寫編程,寫完爬蟲再調試,門檻高耗時長。
一小時教你學會數據采集,無需編程知識,輕松采集所需數據,提高工作效率,解放生產力,多個副業多賺錢。
講師介紹
微博ID:@碼代碼的三哥
10+年互聯網從業經驗,科技公司技術副總監,精通數據處理、軟件開發。
它能采集什么樣的數據?
只要是電腦瀏覽器能打開的網站,它都可以采集。
它不能采集什么樣數據?
只有手機App沒有網站,這樣的數據不能采集。
學習本課所需工具
1、安裝谷歌瀏覽器
首先下載谷歌瀏覽器並安裝,https://www.google.cn/chrome/
2、下載、安裝爬蟲插件
1)下載插件: https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw 提取碼:86tn
2)把下載的壓縮包,復制到E盤根目錄,解壓,解壓后名稱為 webscraper_v0.5.3,如下圖:
3)下載並安裝谷歌插件,如下視頻
https://www.bilibili.com/video/BV1W54y1r7nt/
課程內容
數據采集的思路(從大到小,從整體到局部)
https://www.bilibili.com/video/BV1rT4y1F7cQ/
1、手把手教你采集微博數據(帖子內容、轉、評、贊 次數)
1)新建一個爬蟲;
https://www.bilibili.com/video/BV1Vv411r7j1/
2)設置帖子數據框;
https://www.bilibili.com/video/BV1kA411j7CG/
3)設置發帖時間;
https://www.bilibili.com/video/BV1Py4y1z7Co/
4)設置帖子內容;
https://www.bilibili.com/video/BV1Ra411A7Fu/
5)設置 轉評贊數據框;
https://www.bilibili.com/video/BV1FZ4y157vy/
6)設置 轉評贊數據;
https://www.bilibili.com/video/BV1Ua4y1s743/
7)采集並核對數據;
https://www.bilibili.com/video/BV1iV41127yD/
8)如何讓帖子按時間排序,采集隱藏的完整發帖時間;
https://www.bilibili.com/video/BV1Br4y1w72x/
9)如何采集多個頁面的帖子數據
https://www.bilibili.com/video/BV1Ra411c7jL/
2、數據采集思路詳解(采集數據就是找規律)
1)分析規律,先整體后局部,整體--》整個數據框,局部 —》某一個數據項
2)數據框類型介紹,常用的3種類型:
普通類型 Element
鼠標滾動類型 Element scroll down
鼠標點擊類型 Element click
本節課用到了 Element 和 Element scroll down。
怎么選擇類型,根據是否有特效來決定,無特效選Element,鼠標滾動選 Element scroll down,需要點擊鼠標選Element click ,后面課程會對每一種類型做講解和演示。
3)數據項類型介紹:
text 普通文本
image 圖片
link 連接
Element attribute 某個元素的屬性(高級用法)
本課程用到了text和Element attribute。
怎么選擇數據類型,普通文本選text,圖片選image,鏈接選link,Element attribute需要一點網頁知識。
------------------
text 類型的使用
------------------
Element attribute 類型的使用
4)如何采集多頁數據:用3個頁面的url來分析分頁的規律;
研究采集網址的規律,找出分頁參數,然后設置參數,比如采集1到10頁,設置為[1-10]。
第一頁:https://weibo.com/2644160831/profile?topnav=1&wvr=6&is_all=1
第二頁:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop
第三頁:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=3#feedtop
第四頁:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=4#feedtop
總結規律得出 page=x 是頁面參數
所以采集1到10頁面我們設置url為
https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=[1-10]#feedtop
最后是互動問答時間