深度學習與爬蟲實例教學
聲明:該教程不會直接貼代碼,以免凌亂,你需要先下載項目代碼(第一章)並結合來看,教程中會告訴你具體代碼放在什么位置,以及作用,用法
深度學習實現驗證碼自動識別,爬蟲自動認證防ban
我們將學習如何構建一個用於驗證碼識別的深度學習模型和結合爬蟲進行構建一個項目
教學大綱
項目基本介紹和體驗
深度學習模型構建和訓練
自動識別知乎認證碼並實現抓取
擴展之結合scrapy,Django構建完整項目
背景
深度學習早在上個世紀就出現,其實也就是神經網絡,隨着計算能力的提高,數據量的提升,深度學習有了大展拳腳的機會。如今訓練一個驗證碼識別模型,比如你自己生成數據並用之訓練,然后識別你自己生成的數據,這已經是很簡單的事了,但是,如果你沒有足夠多已標記樣本的情況,那如何訓練出能真正用於生產環境的模型?
現在很多網站都設置了反爬蟲機制,而對應反爬蟲我們可以有不攜帶cookie,隨機User-Agent,隨機代理IP等手段,而驗證碼登錄功能其實也是一種反爬蟲手段
解決方案
對於沒有足夠已標記驗證碼的情況下,你可以想到GANs,遷移學習,甚至是打通內部工作人員給你足夠的已標記驗證碼或者規則...,這里,我們就遷移學習來解決這個問題
對於爬蟲對抗驗證碼,我們只要擁有上面驗證碼識別的深度學習模型就可以了,而其他反爬蟲對抗手段,我們在擴展部分結合scrapy進行實戰演練
體驗
枯燥無味的背景介紹沒看完就跳到這里了吧,好吧。
點擊傳送門,去到項目的Github地址,請根據上面的README介紹,進行環境准備和體驗
體驗完之后將進入第二章深度學習模型構建和訓練