一. 項目聲明
本項目從前端,到后台,以及分布式數據抓取,乃我一個人所寫,因此項目並不太完善!在語義分析以及數據處理上並不能盡如意。但是極大的減輕了編輯的工作量!
二. 項目所用技術
本項目中前端采用bootstrap柵格系統布局,后台服務端語言采用PHP,數據抓取所用Python完成 (scrapy/requests/BeautifulSoup/threading/selenium/jieba)
三. 項目說明
1.拿到對應的關鍵詞 -〉從百度知道 找出 對應的問題;
2.得到對應的問題 -〉搜全網,排名前10篇的文章(過濾掉百度知道的文章正文,通過特征庫過濾一些官網與專題頁面等)
3.得到的對應正文 -〉將得到的文章,進行去頭,去尾。隨機拼接!
4.數據處理-〉用遺忘算法,對處理數據進行篩選,過濾品牌詞! (目前暫未完善,避免誤刪除,導致文本不通順,目前只是標紅,訓練該特征模型)
5.本項目基於多線程!可擴展成多進程(因為不考慮效率,加之本機電腦配置較低,所以采用的是單進程下的多線程!)
四. 項目仍需完善之處
1.文本語義不通順,不能完全機器識別運用(任然需要人工審核),特征庫不完善。
2.過濾品牌詞,仍然存在有一些特殊的品牌詞過濾不掉的問題
3.沒有實現無監督學習,對自然語言分析(NLP)任然不熟悉!導致這些問題,無法解決!
五.該項目需要准備
1.IP代理池來源於(免費IP提供商)
2.下載github開源的分詞庫(jieba)
3.采用selenium抓取,充分模擬瀏覽器行為,因此要有一個無頭瀏覽器作為工具
六.項目截圖:
七.結言:
本項目仍處於開發階段,希望各位自然語言處理的大佬,能給予一些數據清洗方面的幫助!感激不盡!
公司項目,暫不提供源碼... 僅探討思路!
聯系Email:rianleycheng@gmail.com
聯系QQ:2855132411