Google,Baidu,Bing三大搜素引擎圖片爬蟲


Google,Baidu,Bing三大搜素引擎圖片爬蟲

參考https://mp.weixin.qq.com/s/75QDjRTDCKzuM68L4fg5Lg

這個爬蟲由ID為sczhengyabin的用戶整理,看頭像就知道不好惹。

圖片

可以按要求爬取百度、Bing、Google上的圖片

項目地址https://github.com/sczhengyabin/Image-Downloader

項目背景

對於很多初⼊深度學習計算機視覺領域的朋友來說,當前開源資料⾮常多,但有時候難以適從,其中很多資料都沒有包含完整的項⽬流程,⽽只是對某個流程的部分截取,對能⼒的鍛煉不夠。圖像分類是整個計算機視覺領域中最基礎的任務,也是最重要的任務之⼀,最適合拿來進⾏學習實踐。為了讓新⼿們能夠⼀次性體驗⼀個⼯業級別的圖像分類任務的完整流程,本次我們選擇帶領⼤家完成⼀個對圖片中⼈臉進⾏表情識別的任務

⼈臉表情識別(facial expression recognition, FER)作為⼈臉識別技術中的⼀個重要組成部分,近年來在⼈機交互、安全、機器⼈制造、⾃動化、醫療、通信和駕駛領域得到了⼴泛的關注,成為學術界和⼯業界的研究熱點,是⼈臉屬性分析的重點。

數據獲取

很多實際項⽬我們不會有現成的數據集,雖然可以通過開源數據集獲取,但是我們還是要學會⾃⼰從零開始獲取和整理。下⾯講述如何准備好本次項⽬所需要的數據集,包括以下部分:

  1. 學會使⽤爬⾍爬取圖像。
  2. 對獲得的圖⽚數據進⾏整理,包括重命名,格式統⼀。

2.1 數據爬取

由於沒有直接對應的開源數據集,或者開源數據集中的數據⽐較少,尤其是對於嘟嘴,⼤笑等類的數據。搜索引擎上有海量數據,所以我們可以從中爬取。下⾯開始講述具體的步驟,我們的任務是⼀個表情分類任務,因此需要爬取相關圖⽚,包括嘟嘴(pout),微笑(smile),⼤笑(openmouth)、無表情(none)等表情。

當前有很多開源的爬蟲項目,即使你不懂爬蟲的知識,也能夠很容易的爬取互聯網的資源,下文整理了一些常見的爬蟲項目,可以參考進行學習。
【雜談】深度學習必備,各路免費爬蟲一舉拿下

本項目使用的爬蟲項目是:https://github.com/sczhengyabin/Image-Downloader ,可以按要求爬取百度、Bing、Google 上的圖片,提供了非常人性化的 GUI 方便操作,使用方法如下:

  1. 下載爬蟲工具
    圖片無法加載時顯示的文字

  2. 使用 python image_downloader_gui.py 調用GUI界面,配置好參數(關鍵詞,路徑,爬取數目等),關鍵詞可以直接在這里輸入也可以選擇從txt文件中選擇。

  3. 可以配置需要爬取的樣本數目,這里一次爬了2000張,妥妥的3分鍾搞定。

該項目的 GUI 界面如下,我們嘗試爬取“嘟嘴”的相關表情:

圖片無法加載時顯示的文字

爬取圖⽚結果如下:

圖片無法加載時顯示的文字

⾃此就可以獲得數千張圖像


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM