隨着大數據和社交網絡的火爆發展,社交網絡上產生的數據也越來越有價值,特別是微博微信作為時下最火熱的社交平台,如果能對這兩個平台上的數據進行深入分析挖掘,那么價值將非常巨大, 要采集的數據為指定城市的所有微博用戶的相關信息。比如微博名稱,微博地址,微博數量,粉絲數量,名片等等,進入正題,看看具體一步一步怎么操作來實現的。
-
打開八爪魚采集器,新建一個任務之后,如下圖選擇分組:新浪微博,這里其實隨便什么分組都可以,我是把新浪微博專門放了一個分組,以便管理采集微博的多個任務。任務名稱,這里按照自己的情況輸入即可,我這里采集的是沈陽的微博信息。然后輸入備注。
-
然后就到了設計采集流程的界面,這個界面看起來復雜,其實很簡單,我們先看上面一半,包括第一個 Go to Web Page, 和Check Condition 里面的全部流程步驟。其實他們完成一個什么工作呢?就是打開微博登錄頁面,然后檢查用戶是否登錄,如果沒有登錄,則走左邊流程,三步:輸入用戶名,輸入密碼,點擊登錄。如果已經登錄,則走右邊流程:什么事情都不做。為什么需要登錄呢,如果不登錄,則只能看到一頁數據,登錄后就能看所有數據,所以我們想要采集所有數據,就要登錄。下半部分流程因截圖不全,所以請大家看第三步。
-
接上一步,這里看下半部分流程,下半部分第一步是打開沈陽用戶列表,然后是一個Loop循環:循環翻頁,因為我們要采集所有頁面的數據,在這個循環內部,還有一個循環:循環當前頁所有用戶,這樣就能采集到一個頁面的多個用戶的數據,微博一頁有20個用戶的數據。這個循環內部有一個提取數據的步驟,這一步就是真正提取數據,不過他提取的是當前循環用戶的數據。我們只需要在頁面上點擊要采集的數據,系統就會自動配置好,所以這一步很容易。
-
配置好采集規則之后,我們設定執行計划,這里因為我需要每周采集一次,以獲取到這一周新注冊的微博用戶,所以我選擇一周一次,注意這個定時是雲采集的,意思是,他會在八爪魚采集器的雲服務器跑,而且啟動時間如圖,我們定的是周一晚上0點,當然這個時間你可以自己定。所以我們電腦不用每周一晚上0點打開去采集,我們配好就不管了,以后每個周一0點,八爪魚雲采集服務器都會自動啟動我的任務進行采集。
-
經過以上幾個步驟就算配置好了,我們下一步,進行一個測試,從圖中可以看到已經順利采集到了數據,當采集完成之后,即可導出為Excel等使用了。