數據爬取后台(PHP+Python)聯合作戰


一. 項目聲明

  本項目從前端,到后台,以及分布式數據抓取,乃我一個人所寫,因此項目並不太完善!在語義分析以及數據處理上並不能盡如意。但是極大的減輕了編輯的工作量!

 

二. 項目所用技術

  本項目中前端采用bootstrap柵格系統布局,后台服務端語言采用PHP,數據抓取所用Python完成 (scrapy/requests/BeautifulSoup/threading/selenium/jieba)

 

 

三. 項目說明

  1.拿到對應的關鍵詞  -〉從百度知道  找出 對應的問題;

       2.得到對應的問題  -〉搜全網,排名前10篇的文章(過濾掉百度知道的文章正文,通過特征庫過濾一些官網與專題頁面等)

       3.得到的對應正文 -〉將得到的文章,進行去頭,去尾。隨機拼接!

       4.數據處理-〉用遺忘算法,對處理數據進行篩選,過濾品牌詞! (目前暫未完善,避免誤刪除,導致文本不通順,目前只是標紅,訓練該特征模型)

       5.本項目基於多線程!可擴展成多進程(因為不考慮效率,加之本機電腦配置較低,所以采用的是單進程下的多線程!)

 

四. 項目仍需完善之處

  1.文本語義不通順,不能完全機器識別運用(任然需要人工審核),特征庫不完善。

       2.過濾品牌詞,仍然存在有一些特殊的品牌詞過濾不掉的問題

       3.沒有實現無監督學習,對自然語言分析(NLP)任然不熟悉!導致這些問題,無法解決!

 

 

五.該項目需要准備

  1.IP代理池來源於(免費IP提供商)

       2.下載github開源的分詞庫(jieba)

       3.采用selenium抓取,充分模擬瀏覽器行為,因此要有一個無頭瀏覽器作為工具

 

六.項目截圖:

 

 

 

 

 

 

七.結言:

本項目仍處於開發階段,希望各位自然語言處理的大佬,能給予一些數據清洗方面的幫助!感激不盡!

公司項目,暫不提供源碼...  僅探討思路!

聯系Email:rianleycheng@gmail.com

聯系QQ:2855132411

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM