原文:Python爬蟲入門教程 20-100 慕課網免費課程抓取

寫在前面 美好的一天又開始了,今天咱繼續爬取IT在線教育類網站,慕課網,這個平台的數據量並不是很多,所以爬取起來還是比較簡單的 准備爬取 打開我們要爬取的頁面,尋找分頁點和查看是否是異步加載的數據。 進行了一些相應的分析,發現並沒有異步數據,只需要模擬翻頁就,在進行HTML的解析就可以獲取數據了, 翻頁數據如下,合計 頁,在數據量上屬於非常小的了。 編寫代碼 代碼分為自動拼接URL,解析HTML, ...

2019-01-08 19:25 1 884 推薦指數:

查看詳情

Python爬蟲入門教程 19-100 51CTO學院IT技術課程抓取

寫在前面 從今天開始的幾篇文章,我將就國內目前比較主流的一些在線學習平台數據進行抓取,如果時間充足的情況下,會對他們進行一些簡單的分析,好了,平台大概有51CTO學院,CSDN學院,網易雲課堂,等平台,數據統一抓取到mongodb里面,如果對上述平台造成了困擾,請見諒,畢竟我就抓取那么一小 ...

Tue Jan 08 03:19:00 CST 2019 2 758
Python爬蟲入門教程 21-100 網易雲課堂課程數據抓取

寫在前面 今天咱們抓取一下網易雲課堂的課程數據,這個網站的數據量並不是很大,我們只需要使用requests就可以快速的抓取到這部分數據了。 你第一步要做的是打開全部課程的地址,找出爬蟲規律, 地址如下: https://study.163.com/courses/ 我簡單的看了一下,頁面 ...

Wed Jan 09 18:13:00 CST 2019 2 1005
Python爬蟲入門教程 22-100 CSDN學院課程數據抓取

1. CSDN學院課程數據-寫在前面 今天又要抓取一個網站了,選擇恐懼症使得我不知道該拿誰下手,找來找去,算了,還是抓取CSDN學院吧,CSDN學院的網站為 https://edu.csdn.net/courses 我看了一下這個網址,課程數量也不是很多,大概有 6000+ 門課程,數據量 ...

Thu Jan 10 16:20:00 CST 2019 0 669
Python爬蟲入門教程 18-100 煎蛋XXOO圖片抓取

寫在前面 很高興我這系列的文章寫道第18篇了,今天寫一個爬蟲愛好者特別喜歡的網站煎蛋http://jandan.net/ooxx,這個網站其實還是有點意思的,網站很多人寫了N多的教程了,各種方式的都有,當然網站本身在爬蟲愛好者的不斷進攻下,也在不斷的完善,反爬措施也很多,今天 ...

Sat Jan 05 00:58:00 CST 2019 0 795
Python爬蟲入門教程 24-100 微醫掛號醫生數據抓取

1. 寫在前面 今天要抓取的一個網站叫做微醫網站,地址為 https://www.guahao.com ,我們將通過python3爬蟲抓取這個網址,然后數據存儲到CSV里面,為后面的一些分析類的教程做准備。本篇文章主要使用的庫為pyppeteer 和 pyquery 首先找到 醫生列表頁 ...

Tue Jan 15 21:23:00 CST 2019 4 1128
Python爬蟲入門教程 35-100 知乎全站用戶爬蟲 scrapy

爬前叨叨 全站爬蟲有時候做起來其實比較容易,因為規則相對容易建立起來,只需要做好反爬就可以了,今天咱們爬取知乎。繼續使用scrapy當然對於這個小需求來說,使用scrapy確實用了牛刀,不過畢竟本博客這個系列到這個階段需要不斷使用scrapy進行過度,so,我寫了一會就寫完了。 你第一步找一個 ...

Mon Feb 18 17:43:00 CST 2019 0 1152
Python爬蟲入門教程 34-100 掘金全站用戶爬蟲 scrapy

爬前叨叨 已經編寫了33篇爬蟲文章了,如果你按着一個個的實現,你的爬蟲技術已經入門,從今天開始慢慢的就要寫一些有分析價值的數據了,今天我選了一個《掘金》,我們去爬取一下他的全站用戶數據。 爬取思路 獲取全站用戶,理論來說從1個用戶作為切入點就可以,我們需要爬取用戶的關注列表,從關注列表不斷 ...

Fri Feb 15 16:09:00 CST 2019 4 747
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM