今日頭條這類的網站制作,從數據形式,CSS樣式都是通過數據接口的樣式來決定的,所以它的抓取方法和其他網頁的抓取方法不太一樣,對它的抓取需要抓取后台傳來的JSON數據,先來看一下今日頭條的源碼結構:我們抓取文章的標題,詳情頁的圖片鏈接試一下:
看到上面的源碼了吧,抓取下來沒有用,那么我看下它的后台數據:‘
所有的數據都在后台的JSON展示中,所以我們需要通過接口對數據進行抓取
提取網頁JSON數據
執行函數結果,如果你想大量抓取記得開啟多進程並且存入數據庫:
看下結果:
總結一下:網上好多抓取今日頭條的案例都是先抓去指定主頁,獲取文章的URL再通過詳情頁,接着在詳情頁上抓取,但是現在的今日頭條的網站是這樣的,在主頁的接口數據中就帶有詳情頁的數據,通過點擊跳轉攜帶數據的方式將數據傳給詳情頁的頁面模板,這樣開發起來方便節省了不少時間並且減少代碼量