AotucCrawler 快速爬取圖片

本文轉載自查看原文 2021-11-25 22:33 1580 selenium

今天介紹一款自動化爬取圖片項目。

Google, Naver multiprocess image web crawler (Selenium)

關鍵字

> pip -r requirements.txt

certifi: 包含了很多可信任知名公司的證書/公鑰。
chardet：提供自動檢測字符編碼的功能。
idna: 提供"對於RFC5891中定義的IDNA協議（Internationalised Domain Names in Applications）的支持"。
requests: 依賴於上面三個基礎庫，他主要用於根據圖片鏈接下載圖片。
selenium: 用於啟動瀏覽器，爬取圖片鏈接。
webdriver-manager: 用來管理selenium瀏覽器驅動的項目。

仔細分析別人項目，不管是源碼還是依賴庫都會有收獲。webdriver-manager 就是我發現的一個寶藏項目，它簡化的瀏覽器驅動的管理。

cat
dog

> python main.py

參數說明:

--skip true：如果下載的關鍵字已經存在，是否跳過關鍵字，重新下載時需要設置。

--threads 4：下載使用線程數量

--google true：從google.com 下載。

--naver true: 從naver.com 下載。

--full false: 下載全分辨率圖像而不是縮略圖 (慢)。

--face false: Face search mode。

--no_gui auto: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是縮略圖模式不穩定。默認auto模式，如果full=false 默認使用使用GUI，如果full=true默認Headless模式。（可用於docker linux系統）。

--limit 0: 設置最大圖片下載范圍。 (0: 無限制)

--proxy-list: 逗號分隔的代理列表，如: socks://127.0.0.1:1080, http://127.0.0.1:1081，每個線程從列表中隨即選擇一個。

例如：

> python main.py --threads 2 --google true  --naver false --full false --limit 50

因為使用的是Google網站，沒有梯子的同學有點郁悶。項目本身並不復雜，兩個python文件加一起不到1000行代碼，我們完全可以花點時間替換為國內可訪問的搜索引擎。
下載圖片只是為了欣賞貓貓狗狗嗎？當然不是，我們可用下載的圖片訓練 AI。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python3爬蟲-快速入門-爬取圖片和標題教你python如何爬取圖片 scrapy爬蟲，爬取圖片 python如何使用request爬取圖片 scrapy 爬取圖片最基本操作 python網絡爬蟲之爬取圖片 scrapy爬取圖片並自定義圖片名字使用Scrapy爬取圖片入庫,並保存在本地 shell 爬取圖片下載到本地 python網絡爬蟲之使用scrapy爬取圖片