目錄:
web數據采集核心技術分享系列(一)做一個強大的web數據采集系統,你需要什么?
web數據采集核心技術分享系列(二)如何提取信息?字符串?正則?xpath?xslt?自定義?...什么才是王道?
web數據采集核心技術分享系列(三)如何破解驗證碼?圖像分析?特征匹配?人工智能?第三方集成?...哪個最強大?
web數據采集核心技術分享系列(四)利用神經網絡實現網頁驗證碼破解
應各位熱心看客的要求建了個QQ群:254764602,歡迎大家加群一起討論,互相學習進步。
加群請輸入暗號“數據采集”,否則不加
很久沒有寫博客了,一直在默默的學習,經常感到網上太多太多的技術分享都是入門級別的轉載,想要找點核心的東西很難,真正掌握核心的企業和大牛都不願透露哪怕一點點的思路,所以漸漸我就有了這個想法,希望能把核心的技術至少是思路能跟大家一起分享,一起探討學習。
這是開篇,不廢話,先發布一個目錄列出我所想探討的話題,征求一下大家的意見,看大家都對那些感興趣,如果你認為有價值的話題沒有列上去,請留言告訴我,有必要的話我會斟酌后加上。
1.如何提取信息?字符串?正則?xpath?xslt?自定義?...什么才是王道?
2.如何破解驗證碼?圖像分析?特征匹配?人工智能?第三方集成?...哪個最強大?
3.如何防止被封IP?悠着點采?重新撥號換IP?代理?雲計算?...誰能提供終極方案?
4.如何應對網站改變?改代碼?改模版?智能定位?模擬人工?...如何隨機應變?
5.大家都到雲上去了?采集如何到雲上去?
6.新一代數據采集系統架構設計
暫列這幾個,稍后看大家的興趣再調整增補,因本人能力有限,雖在web數據采集領域奮戰多年,卻也不可能在web數據采集的各個方面都提供最牛逼的解決方案和思路,還請各位看官本着互相交流學習,一起進步成長的態度來批評指正,歡迎留言。
