烏雲平台公開漏洞、知識庫爬蟲和搜索——烏雲所有離線數據


1.安裝相關組件

python 2.7和pip

mongodb

scrapy (pip install scrapy)

flask (pip install Flask)

pymongo (pip install pymongo)

2.爬蟲

烏雲公開漏洞和知識庫的爬蟲分別位於目錄scrapy/wooyun和scrapy/wooyun_drops

運行scrapy crawl wooyun -a page_max=1 -a local_store=false -a update=false,有三個參數用於控制爬取:

-a page_max: 控制爬取的頁數,默認為1,如果值為0,表示所有頁面

-a local_store: 控制是否將每個漏洞離線存放到本地,默認為false

-a update:控制是否重復爬取,默認為false

第一次爬取全部內容時,用scrapy crawl wooyun -a page_max=0 -a update=true

平時只爬取最近的更新時,用scrapy crawl wooyun -a page_max=1,可以根據自己的爬取頻率和網站更新情況調整page_max的值

全部公開漏洞的列表和每個漏洞的文本內容存在mongodb中,大概約2G內容;如果整站爬全部文本和圖片作為離線查詢,大概需要10G空間、2小時(10M電信帶寬);爬取全部知識庫,總共約500M空間。(截止2015年10月)

3.搜索

漏洞搜索使用了Flask作為web server,bootstrap作為前端

啟動web server :在flask目錄下運行python app.py,默認端口是5000

搜索:在瀏覽器通過http://localhost:5000進行搜索漏洞,多個關鍵字可以用空格分開。

4.為mongodb數據庫創建索引(如果不創建索引,可能導致返回結果報錯,以下為命令行狀態)

mongo
use wooyun
db.wooyun_list.ensureIndex({"datetime":1})
db.wooyun_drops.ensureIndex({"datetime":1})
5.虛擬機

虛擬機1:在2016年6月底爬的wooyun全部漏洞庫和知識庫內容,總共30G(壓縮后約11G),網盤鏈接: http://pan.baidu.com/s/1kUZFQdT 密碼: rupb
使用方法:

1、壓縮包解壓后是一個vmware虛擬機的鏡像,可以由vmware直接打開運行;
2、由於在制作壓縮包時虛擬機為“掛起”狀態,當前虛擬機的IP地址可能和宿主機的IP地址段不一致,請將虛擬機重啟后重新獲取IP地址,虛擬機用戶密碼為hancool/qwe123;
3、進入wooyun_public目錄,先用git更新一下到最新的代碼git pull;
4、進入wooyun_public/flask目錄,運行./app.py;
5、打開瀏覽器,輸入http://ip:5000,ip為虛擬機的網卡地址(使用ifconfig eth0查看)

虛擬機2:已打包了一個安裝了所有組件和程序的虛擬機(不包含具體內容,約980M),網盤鏈接: http://pan.baidu.com/s/1jIlTkTC 密碼: cnt7
使用方法:

1、使用vmware或virtualbox導入虛擬機
2、登錄用戶名hancool,密碼qwe123
3、進入wooyun_public目錄,先用git更新一下到最新的代碼git pull
4、分別進入wooyun_public目錄下的wooyun和wooyun_drops,運行爬蟲爬取數據(爬取全部數據並且本地離線緩存):scrapy crawl wooyun -a page_max=0 -a local_store=true -a update=true
5、進入wooyun_publich目錄下的flask,運行./app.py,啟動web服務
6、打開瀏覽器,輸入http://ip:5000,ip為虛擬機的網卡地址(使用ifconfig eth0查看)
6.其它

本程序只用於技術研究和個人使用,程序組件均為開源程序,漏洞和知識庫來源於烏雲公開漏洞,版權歸wooyun.org。

期待雨過天晴、重開wooyun!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM