當你用迅雷的時候被拒了,因為迅雷把這個資源封殺了。
當你用百度雲下載的時候,發現百度雲也把這個資源封殺了
當不被百度雲封殺,但是又發現沒有百度會員的時候
當你嫌棄chrome自帶的下載器,逼格不夠高的時候。
wget
(1)支持斷點下傳功能
(2)同時支持FTP和HTTP下載方式
(3)支持代理服務器
(4)設置方便簡單
(5)程序小,完全免費
https://eternallybored.org/misc/wget/
如圖所示。
下載后,直接配一個 環境變量 path路徑,就可以下載了。
建議下載zip包,里面有使用說明等,否則可以直接下載wget64.exe,該軟件是綠色的,不需要安裝,只有不到3M
最簡單的下載命令:
wget http://www.baidu.com。命令會直接在當前目錄下(就是你運行wget的目錄)載一個index.html的文件
文件保存到制定目錄
wget -P E:\ http://114.115.147.4/member/files/337436695219777536.pdf
選擇性的下載。
可以指定讓wget只下載一類文件,或者不下載什么文件。例如:
wget -m –reject=gif http://target.web.site/subdirectory
表示下載http://target.web.site/subdirectory,但是忽略gif文件。–accept=LIST 可以接受的文件類型,–reject=LIST拒絕接受的文件類型。
批量下載。
如果有多個文件需要下載,那么可以生成一個文件,把每個文件的URL寫一行,例如生成文件download.txt,然后用命令:
wget -i download.txt
這樣就會把download.txt里面列出的每個URL都下載下來。(如果列的是文件就下載文件,如果列的是網站,那么下載首頁)
斷點續傳
wget -c http://www.baidu.com
最牛的功能:爬整站
如下命令
wget -c --reject=mp4,pdf -m -k -P E:\aa http://114.115.147.2/
-c 表示 斷點續傳
--reject= 表示 不下載某些類型的文件
-k 讓下載得到的 HTML 或 CSS 中的鏈接指向本地文件
-m 做鏡像
-P 制定存放目錄
常用命令
1、下載單個文件:wget http://www.baidu.com。命令會直接在當前目錄下載一個index.html的文件
2、將下載的文件存放到指定的文件夾下,同時重命名下載的文件,利用-O:wget -O /home/index http://www.baidu.com
3、下載多個文件:首先,創建一個file.txt文件,寫入兩個url(換行),如http://www.baidu.com;然后,wget -i file.txt;命令執行后會下載兩個兩個文件。
4、下載時,不顯示詳細信息,即在后台下載:wget -b http://www.baidu.com。命令執行后會,下載的詳細信息不會顯示在終端,會在當前目錄下生成一個web-log記錄下載的詳細信息。
5、下載時,不顯示詳細信息,同時將下載信息保存到執行的文件中(同4):wget -o dw.txt http://www.baidu.com
7、限制下載的的速度:wget --limit-rate=100k -O zfj.html http://www.baidu.com
8、測試是否能正常訪問:wget --spider http://www.baidu.com
9、設置下載重試的次數:wget --tries=3 http://www.baidu.com
10、下載一個完整的網站,即當前頁面所依賴的所有文件:wget --mirror -p --convert-links -P./test http://localhost
--mirror:打開鏡像選項
-p:下載所有用於顯示給定網址所必須的文件
--convert-links:下載以后,轉換鏈接用於本地顯示
-P LOCAL_DIR:保存所有的文件或目錄到指定的目錄下
11、下載的過程中拒絕下載指定類型的文件:wget --reject=png --mirror -p --convert-links -P./test http://localhost
12、多文件下載中拒絕下載超過設置大小的文件:wget -Q5m -i file.txt
注意:此選項只能在下載多個文件時有用,當你下載一個文件時沒用。
13、從指定網站中下載所有指定類型的文件:wget -r -A .png http://www.baidu.com
14、wget下載時,某些資源必須使用--no-check-certificate http://www.baidu.com
15、使用wget實現FTP下載:wget --file-user=USERNAME --file-password=PASSWORD url
其他命令
1 GNU Wget 1.14,非交互式的網絡文件下載工具。
2 用法: wget [選項]... [URL]...
3
4 長選項所必須的參數在使用短選項時也是必須的。
5
6 啟動:
7 -V, --version 顯示 Wget 的版本信息並退出。
8 -h, --help 打印此幫助。
9 -b, --background 啟動后轉入后台。
10 -e, --execute=COMMAND 運行一個“.wgetrc”風格的命令。
11
12 日志和輸入文件:
13 -o, --output-file=FILE 將日志信息寫入 FILE。
14 -a, --append-output=FILE 將信息添加至 FILE。
15 -d, --debug 打印大量調試信息。
16 -q, --quiet 安靜模式 (無信息輸出)。
17 -v, --verbose 詳盡的輸出 (此為默認值)。
18 -nv, --no-verbose 關閉詳盡輸出,但不進入安靜模式。
19 --report-speed=TYPE Output bandwidth as TYPE. TYPE can be bits.
20 -i, --input-file=FILE 下載本地或外部 FILE 中的 URLs。
21 -F, --force-html 把輸入文件當成 HTML 文件。
22 -B, --base=URL 解析與 URL 相關的
23 HTML 輸入文件 (由 -i -F 選項指定)。
24 --config=FILE Specify config file to use.
25
26 下載:
27 -t, --tries=NUMBER 設置重試次數為 NUMBER (0 代表無限制)。
28 --retry-connrefused 即使拒絕連接也是重試。
29 -O, --output-document=FILE 將文檔寫入 FILE。
30 -nc, --no-clobber skip downloads that would download to
31 existing files (overwriting them).
32 -c, --continue 斷點續傳下載文件。
33 --progress=TYPE 選擇進度條類型。
34 -N, --timestamping 只獲取比本地文件新的文件。
35 --no-use-server-timestamps 不用服務器上的時間戳來設置本地文件。
36 -S, --server-response 打印服務器響應。
37 --spider 不下載任何文件。
38 -T, --timeout=SECONDS 將所有超時設為 SECONDS 秒。
39 --dns-timeout=SECS 設置 DNS 查尋超時為 SECS 秒。
40 --connect-timeout=SECS 設置連接超時為 SECS 秒。
41 --read-timeout=SECS 設置讀取超時為 SECS 秒。
42 -w, --wait=SECONDS 等待間隔為 SECONDS 秒。
43 --waitretry=SECONDS 在獲取文件的重試期間等待 1..SECONDS 秒。
44 --random-wait 獲取多個文件時,每次隨機等待間隔
45 0.5*WAIT...1.5*WAIT 秒。
46 --no-proxy 禁止使用代理。
47 -Q, --quota=NUMBER 設置獲取配額為 NUMBER 字節。
48 --bind-address=ADDRESS 綁定至本地主機上的 ADDRESS (主機名或是 IP)。
49 --limit-rate=RATE 限制下載速率為 RATE。
50 --no-dns-cache 關閉 DNS 查尋緩存。
51 --restrict-file-names=OS 限定文件名中的字符為 OS 允許的字符。
52 --ignore-case 匹配文件/目錄時忽略大小寫。
53 -4, --inet4-only 僅連接至 IPv4 地址。
54 -6, --inet6-only 僅連接至 IPv6 地址。
55 --prefer-family=FAMILY 首先連接至指定協議的地址
56 FAMILY 為 IPv6,IPv4 或是 none。
57 --user=USER 將 ftp 和 http 的用戶名均設置為 USER。
58 --password=PASS 將 ftp 和 http 的密碼均設置為 PASS。
59 --ask-password 提示輸入密碼。
60 --no-iri 關閉 IRI 支持。
61 --local-encoding=ENC IRI (國際化資源標識符) 使用 ENC 作為本地編碼。
62 --remote-encoding=ENC 使用 ENC 作為默認遠程編碼。
63 --unlink remove file before clobber.
64
65 目錄:
66 -nd, --no-directories 不創建目錄。
67 -x, --force-directories 強制創建目錄。
68 -nH, --no-host-directories 不要創建主目錄。
69 --protocol-directories 在目錄中使用協議名稱。
70 -P, --directory-prefix=PREFIX 以 PREFIX/... 保存文件
71 --cut-dirs=NUMBER 忽略遠程目錄中 NUMBER 個目錄層。
72
73 HTTP 選項:
74 --http-user=USER 設置 http 用戶名為 USER。
75 --http-password=PASS 設置 http 密碼為 PASS。
76 --no-cache 不在服務器上緩存數據。
77 --default-page=NAME 改變默認頁
78 (默認頁通常是“index.html”)。
79 -E, --adjust-extension 以合適的擴展名保存 HTML/CSS 文檔。
80 --ignore-length 忽略頭部的‘Content-Length’區域。
81 --header=STRING 在頭部插入 STRING。
82 --max-redirect 每頁所允許的最大重定向。
83 --proxy-user=USER 使用 USER 作為代理用戶名。
84 --proxy-password=PASS 使用 PASS 作為代理密碼。
85 --referer=URL 在 HTTP 請求頭包含‘Referer: URL’。
86 --save-headers 將 HTTP 頭保存至文件。
87 -U, --user-agent=AGENT 標識為 AGENT 而不是 Wget/VERSION。
88 --no-http-keep-alive 禁用 HTTP keep-alive (永久連接)。
89 --no-cookies 不使用 cookies。
90 --load-cookies=FILE 會話開始前從 FILE 中載入 cookies。
91 --save-cookies=FILE 會話結束后保存 cookies 至 FILE。
92 --keep-session-cookies 載入並保存會話 (非永久) cookies。
93 --post-data=STRING 使用 POST 方式;把 STRING 作為數據發送。
94 --post-file=FILE 使用 POST 方式;發送 FILE 內容。
95 --content-disposition 當選中本地文件名時
96 允許 Content-Disposition 頭部 (尚在實驗)。
97 --content-on-error output the received content on server errors.
98 --auth-no-challenge 發送不含服務器詢問的首次等待
99 的基本 HTTP 驗證信息。
100
101 HTTPS (SSL/TLS) 選項:
102 --secure-protocol=PR choose secure protocol, one of auto, SSLv2,
103 SSLv3, TLSv1, TLSv1_1 and TLSv1_2.
104 --no-check-certificate 不要驗證服務器的證書。
105 --certificate=FILE 客戶端證書文件。
106 --certificate-type=TYPE 客戶端證書類型,PEM 或 DER。
107 --private-key=FILE 私鑰文件。
108 --private-key-type=TYPE 私鑰文件類型,PEM 或 DER。
109 --ca-certificate=FILE 帶有一組 CA 認證的文件。
110 --ca-directory=DIR 保存 CA 認證的哈希列表的目錄。
111 --random-file=FILE 帶有生成 SSL PRNG 的隨機數據的文件。
112 --egd-file=FILE 用於命名帶有隨機數據的 EGD 套接字的文件。
113
114 FTP 選項:
115 --ftp-user=USER 設置 ftp 用戶名為 USER。
116 --ftp-password=PASS 設置 ftp 密碼為 PASS。
117 --no-remove-listing 不要刪除‘.listing’文件。
118 --no-glob 不在 FTP 文件名中使用通配符展開。
119 --no-passive-ftp 禁用“passive”傳輸模式。
120 --preserve-permissions 保留遠程文件的權限。
121 --retr-symlinks 遞歸目錄時,獲取鏈接的文件 (而非目錄)。
122
123 WARC options:
124 --warc-file=FILENAME save request/response data to a .warc.gz file.
125 --warc-header=STRING insert STRING into the warcinfo record.
126 --warc-max-size=NUMBER set maximum size of WARC files to NUMBER.
127 --warc-cdx write CDX index files.
128 --warc-dedup=FILENAME do not store records listed in this CDX file.
129 --no-warc-compression do not compress WARC files with GZIP.
130 --no-warc-digests do not calculate SHA1 digests.
131 --no-warc-keep-log do not store the log file in a WARC record.
132 --warc-tempdir=DIRECTORY location for temporary files created by the
133 WARC writer.
134
135 遞歸下載:
136 -r, --recursive 指定遞歸下載。
137 -l, --level=NUMBER 最大遞歸深度 (inf 或 0 代表無限制,即全部下載)。
138 --delete-after 下載完成后刪除本地文件。
139 -k, --convert-links 讓下載得到的 HTML 或 CSS 中的鏈接指向本地文件。
140 --backups=N before writing file X, rotate up to N backup files.
141 -K, --backup-converted 在轉換文件 X 前先將它備份為 X.orig。
142 -m, --mirror -N -r -l inf --no-remove-listing 的縮寫形式。
143 -p, --page-requisites 下載所有用於顯示 HTML 頁面的圖片之類的元素。
144 --strict-comments 用嚴格方式 (SGML) 處理 HTML 注釋。
145
146 遞歸接受/拒絕:
147 -A, --accept=LIST 逗號分隔的可接受的擴展名列表。
148 -R, --reject=LIST 逗號分隔的要拒絕的擴展名列表。
149 --accept-regex=REGEX regex matching accepted URLs.
150 --reject-regex=REGEX regex matching rejected URLs.
151 --regex-type=TYPE regex type (posix|pcre).
152 -D, --domains=LIST 逗號分隔的可接受的域列表。
153 --exclude-domains=LIST 逗號分隔的要拒絕的域列表。
154 --follow-ftp 跟蹤 HTML 文檔中的 FTP 鏈接。
155 --follow-tags=LIST 逗號分隔的跟蹤的 HTML 標識列表。
156 --ignore-tags=LIST 逗號分隔的忽略的 HTML 標識列表。
157 -H, --span-hosts 遞歸時轉向外部主機。
158 -L, --relative 只跟蹤有關系的鏈接。
159 -I, --include-directories=LIST 允許目錄的列表。
160 --trust-server-names use the name specified by the redirection
161 url last component.
162 -X, --exclude-directories=LIST 排除目錄的列表。
163 -np, --no-parent 不追溯至父目錄。