使用django+mysql+scrapy制作的一個小說網站


小說網站用的程序都是千篇一律的,jieqi + guanguang,無聊時間學習python+django,也做了一個小說網站,下面說一說做這個網站一些過程,

制作這種采集站,最要緊的是要有一個好的采集器,在python的世界里面,爬取網頁真是小菜一碟,urllib urllib2 requests 都是神器,不過為了追求程序的穩定性和易用性,我采用了scrapy這個第三方采集庫

在windows下安裝這個采集庫有點麻煩,給大家推薦一個網站 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 這里面有lxml 等在win品台上不好安裝的庫

采集小說無非就 小說名,作者,分類,介紹,還有各個章節的內容,這個使用scrapy非常容易實現,為了使熱門的小說能夠更快的采集和更新,我分別做了2個爬蟲,一個爬蟲從采集站的列表頁采集小說,一個爬蟲專門用於指定的單本小說的采集,這樣,后台設置的熱門的主推小說能夠在第一時間里采集到,兩個爬蟲都是每隔3分鍾就循環采集一次,使用supervisor保證爬蟲24h在線。

  采集內容的過濾,依靠的是xpath和re相互扶助配合,過濾掉采集站的url,和一些與采集站有關的內容,保證采集到的內容是干凈的,

django這方面我覺得就沒有什么多說的了,應為一個小說站的邏輯是非常簡單的

在部署方面使用的是supervisor gunicorn nginx 配合起來還是很快的

還有使用了fabric 進行遠程部署,因為小說站基本上都是國外的vps,ssh連接是很慢的

 易讀中文網 這就是小站,

最悲劇的是買域名的時候沒有注意到,這個域名原來是干菠菜的,虧死我了,不知道會不會有收錄,哎慢慢等吧!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM