原文:說說爬蟲分享

從去年畢業工作到現在一直沒寫博客,之前一直想總結下這一年的工作經歷,但是感覺有點亂,還有時間關系,也就一直擱置了,也借這篇文章簡單敘述下吧。 開篇: 哈哈,還記得有次偶爾在博客園上看到別人發的, w騰訊用戶數據 樣子的一篇文章,感覺很不錯,自己忍不住也想實現下QQ說說的爬蟲。 爬蟲程序大概是這個樣子的: 以下是流程圖,更清晰些: 流程圖標簽關系,其實用戶和說說只是兩個表,並不是分開的數據庫 爬蟲 ...

2015-10-28 17:58 5 1065 推薦指數:

查看詳情

說說這半年做的一個項目,並分享給各位

  已經快一年沒有寫博客了,實在是太忙了,忙到已經沒有時間寫文章。近半年的時間一直在忙着一個新項目,最近終於有了階段性成果,覺得很有必要寫寫文章來記錄一下這個新的項目。趁着這兩天趕路的空閑時間記錄分享一下項目的經驗和過程。   (一) 這是一個什么類型的項目     其實自己做吉 ...

Tue Oct 30 17:31:00 CST 2018 20 4009
免費代理ip爬蟲分享

分享一個某代理網站的免費代理ip的爬蟲,直接復制到pycharm運行就可以了。 注意:爬取的代理ip有點坑,因為是免費的所以過期時間很快,可能1分鍾后就會失效。並且在scrapy使用這些代理ip還會給你打印一堆廣告。且用且珍惜。 ...

Thu Aug 02 22:50:00 CST 2018 1 1115
干貨分享!網絡爬蟲,提取網站數據。

1 什么是網絡爬蟲 網絡爬蟲是指從網站提取數據的技術,該技術可以將非結構化數據轉換為結構化數據。 網絡爬蟲的用途是從網站提取數據,提取的數據可以存儲到本地文件並保存在系統中,也可以將其以表格的形式存儲到數據庫中。網絡爬蟲使用HTTP或Web瀏覽器直接訪問萬維網(WWW)。網絡 ...

Sat Sep 12 23:57:00 CST 2020 0 755
NodeJs簡單七行爬蟲--爬取自己Qzone的說說並存入數據庫

沒有那么難的,嘿嘿,說起來呢其實挺簡單的,或者不能叫爬蟲,只需要將自己的數據加載到程序里再進行解析就可以了,如果說你的Qzone是向所有人開放的,那么就有一個JSONP的接口,這么說來就簡單了,也就不用我們再利用phantomjs,緩慢的爬了。其實程序還沒有做的太過完美,只是簡單地可以打印出來說說 ...

Sun Feb 01 19:24:00 CST 2015 1 2417
說說緩存,說說Redis

*** 大家圖片看不到的可以訪問這個地址哈(都是微信圖片封鎖的鍋), https://mp.weixin.qq.com/s/JaCg3sb-OqGzUI06LNJj_A 或 ...

Tue Nov 28 17:32:00 CST 2017 7 1034
動態調整線程數的python爬蟲代碼分享

  這幾天在忙一個爬蟲程序,一直在改進他,從一開始的單線程,好幾秒一張圖片(網絡不好),,,到現在每秒鍾十幾張圖片,,, 四個小時586萬條數據,,,簡直不要太爽 先上圖      最終寫出來的程序,線程數已經可以動態調整了,賊暴力。。。峰值能穩定在50個線程,具體思路可以繼續 ...

Wed Aug 14 10:00:00 CST 2019 2 338
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM