scrapy爬取今日頭條


今日頭條加密http://www.cnblogs.com/xuchunlin/p/7097391.html  非常感謝!

參考網站:http://blog.csdn.net/u011475134/article/details/70198533


 

參考網站:http://www.jianshu.com/p/5a93673ce1c0  這位大神寫的很詳細,不過現在api這個接口有點變化,多了一個參數

 


 

經過測試,這個參數可以固定!

start_urls=[

'https://www.toutiao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr']

 


請求頭

加密算法和js   http://www.cnblogs.com/xuchunlin/p/7097391.html  感謝!

加密的js沒找到,直接用大神寫的解密方式


 

 


從redis獲取數據重組

 


json數據

解析json數據

一開始使用的是,抽取"source_url"的數據,然后301重定向可以訪問詳細頁,跑了幾遍之后會有一些奇怪的url,最后發現這樣的方式不行,然后重組url。

 


獲取下一部分

 


下一部分,只使用10次

3.詳細頁解析


不是我們熟悉的html呈現,而是js的形式

解析:正則!!====>解析正文部分。

 


 

可以看到有'<>'的html里面的大於小於號

一開始是,把這些符號用正則替換


 

最后運行幾次,有個別文章匹配方式跟這種有點不同,達不到通用,換方案!

這一段的正文,在瀏覽器上呈現,可以看到是一段html文字,所以想到轉換,


 

etree呈現出來之后,我們可以提取出來,再次etree

 


解析

這種方式,目前運行正常

在這里只是提供一種方法,也許不是最好的,只要能達到目的就行!

也希望大家能有新的方法!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM