今日頭條加密http://www.cnblogs.com/xuchunlin/p/7097391.html 非常感謝!
參考網站:http://blog.csdn.net/u011475134/article/details/70198533
參考網站:http://www.jianshu.com/p/5a93673ce1c0 這位大神寫的很詳細,不過現在api這個接口有點變化,多了一個參數
經過測試,這個參數可以固定!
start_urls=[
'https://www.toutiao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr']
加密算法和js http://www.cnblogs.com/xuchunlin/p/7097391.html 感謝!
加密的js沒找到,直接用大神寫的解密方式
一開始使用的是,抽取"source_url"的數據,然后301重定向可以訪問詳細頁,跑了幾遍之后會有一些奇怪的url,最后發現這樣的方式不行,然后重組url。
3.詳細頁解析
解析:正則!!====>解析正文部分。
可以看到有'<>'的html里面的大於小於號
一開始是,把這些符號用正則替換
最后運行幾次,有個別文章匹配方式跟這種有點不同,達不到通用,換方案!
這一段的正文,在瀏覽器上呈現,可以看到是一段html文字,所以想到轉換,
etree呈現出來之后,我們可以提取出來,再次etree
這種方式,目前運行正常
在這里只是提供一種方法,也許不是最好的,只要能達到目的就行!
也希望大家能有新的方法!
