寫在前面 從今天開始的幾篇文章,我將就國內目前比較主流的一些在線學習平台數據進行抓取,如果時間充足的情況下,會對他們進行一些簡單的分析,好了,平台大概有51CTO學院,CSDN學院,網易雲課堂,慕課網等平台,數據統一抓取到mongodb里面,如果對上述平台造成了困擾,請見諒,畢竟我就抓取那么一小 ...
寫在前面 美好的一天又開始了,今天咱繼續爬取IT在線教育類網站,慕課網,這個平台的數據量並不是很多,所以爬取起來還是比較簡單的 准備爬取 打開我們要爬取的頁面,尋找分頁點和查看是否是異步加載的數據。 進行了一些相應的分析,發現並沒有異步數據,只需要模擬翻頁就,在進行HTML的解析就可以獲取數據了, 翻頁數據如下,合計 頁,在數據量上屬於非常小的了。 編寫代碼 代碼分為自動拼接URL,解析HTML, ...
2019-01-08 19:25 1 884 推薦指數:
寫在前面 從今天開始的幾篇文章,我將就國內目前比較主流的一些在線學習平台數據進行抓取,如果時間充足的情況下,會對他們進行一些簡單的分析,好了,平台大概有51CTO學院,CSDN學院,網易雲課堂,慕課網等平台,數據統一抓取到mongodb里面,如果對上述平台造成了困擾,請見諒,畢竟我就抓取那么一小 ...
寫在前面 今天咱們抓取一下網易雲課堂的課程數據,這個網站的數據量並不是很大,我們只需要使用requests就可以快速的抓取到這部分數據了。 你第一步要做的是打開全部課程的地址,找出爬蟲規律, 地址如下: https://study.163.com/courses/ 我簡單的看了一下,頁面 ...
1. CSDN學院課程數據-寫在前面 今天又要抓取一個網站了,選擇恐懼症使得我不知道該拿誰下手,找來找去,算了,還是抓取CSDN學院吧,CSDN學院的網站為 https://edu.csdn.net/courses 我看了一下這個網址,課程數量也不是很多,大概有 6000+ 門課程,數據量 ...
寫在前面 很高興我這系列的文章寫道第18篇了,今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx,這個網站其實還是有點意思的,網站很多人寫了N多的教程了,各種方式的都有,當然網站本身在爬蟲愛好者的不斷進攻下,也在不斷的完善,反爬措施也很多,今天 ...
1. 寫在前面 今天要抓取的一個網站叫做微醫網站,地址為 https://www.guahao.com ,我們將通過python3爬蟲抓取這個網址,然后數據存儲到CSV里面,為后面的一些分析類的教程做准備。本篇文章主要使用的庫為pyppeteer 和 pyquery 首先找到 醫生列表頁 ...
技術選型 下載器是Requests 解析使用的是正則表達式 效果圖: 准備好各個包 開始編寫代碼,new一個py文件 1.requests下載頁面 這里需要注意編碼的問題; 就像 ...
爬前叨叨 全站爬蟲有時候做起來其實比較容易,因為規則相對容易建立起來,只需要做好反爬就可以了,今天咱們爬取知乎。繼續使用scrapy當然對於這個小需求來說,使用scrapy確實用了牛刀,不過畢竟本博客這個系列到這個階段需要不斷使用scrapy進行過度,so,我寫了一會就寫完了。 你第一步找一個 ...
爬前叨叨 已經編寫了33篇爬蟲文章了,如果你按着一個個的實現,你的爬蟲技術已經入門,從今天開始慢慢的就要寫一些有分析價值的數據了,今天我選了一個《掘金網》,我們去爬取一下他的全站用戶數據。 爬取思路 獲取全站用戶,理論來說從1個用戶作為切入點就可以,我們需要爬取用戶的關注列表,從關注列表不斷 ...