數據爬取后台（PHP+Python）聯合作戰

本文轉載自查看原文 2018-06-15 11:18 4390 爬蟲相關/ 項目相關

　　本項目從前端，到后台，以及分布式數據抓取，乃我一個人所寫，因此項目並不太完善！在語義分析以及數據處理上並不能盡如意。但是極大的減輕了編輯的工作量！

　　本項目中前端采用bootstrap柵格系統布局，后台服務端語言采用PHP，數據抓取所用Python完成（scrapy/requests/BeautifulSoup/threading/selenium/jieba）

　　1.拿到對應的關鍵詞 -〉從百度知道找出對應的問題;

2.得到對應的問題 -〉搜全網，排名前10篇的文章（過濾掉百度知道的文章正文，通過特征庫過濾一些官網與專題頁面等）

3.得到的對應正文 -〉將得到的文章，進行去頭，去尾。隨機拼接！

4.數據處理-〉用遺忘算法，對處理數據進行篩選，過濾品牌詞！（目前暫未完善，避免誤刪除，導致文本不通順，目前只是標紅，訓練該特征模型）

5.本項目基於多線程！可擴展成多進程（因為不考慮效率，加之本機電腦配置較低，所以采用的是單進程下的多線程！）

　　1.文本語義不通順，不能完全機器識別運用（任然需要人工審核），特征庫不完善。

2.過濾品牌詞，仍然存在有一些特殊的品牌詞過濾不掉的問題

3.沒有實現無監督學習，對自然語言分析（NLP）任然不熟悉！導致這些問題，無法解決！

　　1.IP代理池來源於（免費IP提供商）

2.下載github開源的分詞庫（jieba）

3.采用selenium抓取，充分模擬瀏覽器行為，因此要有一個無頭瀏覽器作為工具

本項目仍處於開發階段，希望各位自然語言處理的大佬，能給予一些數據清洗方面的幫助！感激不盡！

公司項目，暫不提供源碼... 僅探討思路！

聯系Email：rianleycheng@gmail.com

聯系QQ：2855132411

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 php 爬取數據基於 PHP 的數據爬取（QueryList） python爬取疫情數據 python 爬取動態數據 python爬取疫情數據 python爬取github數據 python爬取疫情數據 Python爬取數據(基礎，從0開始) 用python爬取疫情數據 python爬取網站數據