curl,wget，下載速度

清單 1 給出對一個流行的新聞站點執行 curl 命令的情況.輸出通常是 HTML 代碼,通過 -o 參數發送到/dev/null.-s 參數去掉所有狀態信息.-w 參數讓 curl 寫出表 1 列出的計時器的狀態信息：

這些計時器都相對於事務的起始時間,甚至要先於 Domain Name Service（DNS）查詢.因此,在發出請求之后,Web 服務器處理請求並開始發回數據所用的時間是 0.272 – 0.081 = 0.191 秒.客戶機從服務器下載數據所用的時間是 0.779 – 0.272 = 0.507 秒.

計時器	描述
time_connect	建立到服務器的 TCP 連接所用的時間
time_starttransfer	在發出請求之后,Web 服務器返回數據的第一個字節所用的時間
time_total	完成請求所用的時間
time_namelookup	DNS解析時間,從請求開始到DNS解析完畢所用時間(記得關掉 Linux 的 nscd 的服務測試)
speed_download	下載速度，單位-字節每秒。

通過觀察 curl 數據及其隨時間變化的趨勢,可以很好地了解站點對用戶的響應性.以上變量會按CURL認為合適的格式輸出，輸出變量需要按照%{variable_name}的格式，如果需要輸出%，double一下即可，即%%，同時，\n是換行，\r是回車，\t是TAB。

當然,Web 站點不僅僅由頁面組成.它還有圖像、JavaScript 代碼、CSS 和 cookie 要處理.curl 很適合了解單一元素的響應時間,但是有時候需要了解整個頁面的裝載速度.

curl -o /dev/null -s -w %{http_code}:%{time_connect}:%{time_starttransfer}:%{time_total} http://www.miotour.com

-s 靜默輸出；沒有-s的話就是下面的情況，這是在腳本等情況下不需要的信息。

curl -o /dev/null -sw '%{http_code}:%{time_total}:%{time_connect}:%{time_starttransfer}\n' http://www.miotour.com

curl -o /dev/null -s -w ‘%{time_connect}:%{time_starttransfer}:%{time_total}\n’ http://www.miotour.com

time_starttransfer 在發出請求之后，Web 服務器返回數據的第一個字節所用的時間

在發出請求之后，Web 服務器處理請求並開始發回數據所用的時間是

有時候為了測試網絡情況，需要返回每個階段的耗時時間，比如DNS解析耗時，建立連接所消耗的時間，從建立連接到准備傳輸所使用的時間，從建立連接到傳輸開始所使用的時間，整個過程耗時，下載的數據量，下載速度，上傳數據量，上傳速度等等。下面的腳本獲取以上信息：

使用 cURL 獲取站點的各類響應時間 – dns解析時間,響應時間,傳輸時間

使用 cURL 獲取站點的各類響應時間 – dns解析時間,響應時間,傳輸時間等：

 
              Example 
             
                 curl -o  
                 /dev/null 
                 -s -w %{http_code}:%{http_connect}:%{content_type}:%{time_namelookup}:%{time_redirect}:%{time_pretransfer}:%{time_connect}:%{time_starttransfer}:%{time_total}:%{speed_download} digdeeply.org

這是一個本人博客站點執行 curl 命令的情況。輸出通常是 HTML 代碼，通過 -o 參數發送到 /dev/null。-s 參數去掉所有狀態信息。-w 參數讓 curl 輸出的計時器的狀態信息。

一次http請求中的各個時間段-dns解析,等待服務器響應,獲取內容等

下邊對-w參數做個詳細的解釋，由我(DigDeeply)翻譯。有不對的地方請大家指出。(英文原文：http://curl.haxx.se/docs/manpage.html)

以下是可用的變量名：

　-w, --write-out 
  　以下變量會按CURL認為合適的格式輸出，輸出變量需要按照%{variable_name}的格式，如果需要輸出%，double一下即可，即%%，同時，\n是換行，\r是回車，\t是TAB。

url_effective The URL that was fetched last. This is most meaningful if you've told curl to follow location: headers.

filename_effective The ultimate filename that curl writes out to. This is only meaningful if curl is told to write to a file with the --remote-name or --output option. It's most useful in combination with the --remote-header-name option. (Added in 7.25.1)

http_code http狀態碼，如200成功,301轉向,404未找到,500服務器錯誤等。(The numerical response code that was found in the last retrieved HTTP(S) or FTP(s) transfer. In 7.18.2 the alias response_code was added to show the same info.)

http_connect The numerical code that was found in the last response (from a proxy) to a curl CONNECT request. (Added in 7.12.4)

time_total 總時間，按秒計。精確到小數點后三位。 （The total time, in seconds, that the full operation lasted. The time will be displayed with millisecond resolution.）

time_namelookup DNS解析時間,從請求開始到DNS解析完畢所用時間。(The time, in seconds, it took from the start until the name resolving was completed.)

time_connect 連接時間,從開始到建立TCP連接完成所用時間,包括前邊DNS解析時間，如果需要單純的得到連接時間，用這個time_connect時間減去前邊time_namelookup時間。以下同理，不再贅述。(The time, in seconds, it took from the start until the TCP connect to the remote host (or proxy) was completed.)

time_appconnect 連接建立完成時間，如SSL/SSH等建立連接或者完成三次握手時間。(The time, in seconds, it took from the start until the SSL/SSH/etc connect/handshake to the remote host was completed. (Added in 7.19.0))

time_pretransfer 從開始到准備傳輸的時間。(The time, in seconds, it took from the start until the file transfer was just about to begin. This includes all pre-transfer commands and negotiations that are specific to the particular protocol(s) involved.)

time_redirect 重定向時間，包括到最后一次傳輸前的幾次重定向的DNS解析，連接，預傳輸，傳輸時間。(The time, in seconds, it took for all redirection steps include name lookup, connect, pretransfer and transfer before the final transaction was started. time_redirect shows the complete execution time for multiple redirections. (Added in 7.12.3))

time_starttransfer 開始傳輸時間。在發出請求之后，Web 服務器返回數據的第一個字節所用的時間(The time, in seconds, it took from the start until the first byte was just about to be transferred. This includes time_pretransfer and also the time the server needed to calculate the result.)

size_download 下載大小。(The total amount of bytes that were downloaded.)

size_upload 上傳大小。(The total amount of bytes that were uploaded.)

size_header  下載的header的大小(The total amount of bytes of the downloaded headers.)

size_request 請求的大小。(The total amount of bytes that were sent in the HTTP request.)

speed_download 下載速度，單位-字節每秒。(The average download speed that curl measured for the complete download. Bytes per second.)

speed_upload 上傳速度,單位-字節每秒。(The average upload speed that curl measured for the complete upload. Bytes per second.)

content_type 就是content-Type，不用多說了，這是一個訪問我博客首頁返回的結果示例(text/html; charset=UTF-8)；(The Content-Type of the requested document, if there was any.)

num_connects Number of new connects made in the recent transfer. (Added in 7.12.3)

num_redirects Number of redirects that were followed in the request. (Added in 7.12.3)

redirect_url When a HTTP request was made without -L to follow redirects, this variable will show the actual URL a redirect would take you to. (Added in 7.18.2)

ftp_entry_path The initial path libcurl ended up in when logging on to the remote FTP server. (Added in 7.15.4)

ssl_verify_result ssl認證結果，返回0表示認證成功。( The result of the SSL peer certificate verification that was requested. 0 means the verification was successful. (Added in 7.19.0))

若多次使用-w參數，按最后一個的格式輸出。If this option is used several times, the last one will be used.

轉載請注明：來自：DigDeeply’s Blog–使用 cURL 獲取站點的各類響應時間 – dns解析時間,響應時間,傳輸時間

curl 和 wget 命令，目前已經支持Linux和Windows平台，后續將介紹。

curl 支持 http，https，ftp，ftps，scp，telnet等網絡協議，詳見手冊 man curl

wget 命令安裝： sudo apt-get install wget （普通用戶登錄，需輸入密碼； root賬戶登錄，無需輸入密碼）

Windows平台下，curl下載解壓后，直接是curl.exe格式，拷貝到系統命令目錄下 C:\Windows\System32 即可

Windows平台下，wget下載解壓后，是wget-1.11.4-1-setup.exe格式，需要安裝；安裝后，在環境變量 - 系統變量 - Path 中添加其安裝目錄即可

抓取網頁，主要有url 網址和proxy代理兩種方式，下面以抓取“百度”首頁為例，分別介紹

有的時候，由於網速/數據丟包/服務器宕機/等原因，導致暫時無法成功下載網頁

這時，可能就需要多次嘗試發送連接，請求服務器的響應；如果多次仍無響應，則可以確認服務器出問題了

curl --retry 10 --retry-delay 60 --retry-max-time 60 http://www.baidu.com/ -o baidu_html

注： --retry表示重試次數； --retry-delay表示兩次重試之間的時間間隔（秒為單位）； --retry-max-time表示在此最大時間內只容許重試一次（一般與--retry-delay相同）

注：-t（--tries）表示重試次數； -w表示兩次重試之間的時間間隔（秒為單位）； -T表示連接超時時間，如果超時則連接不成功，繼續嘗試下一次連接

附： curl 判斷服務器是否響應，還可以通過一段時間內下載獲取的字節量來間接判斷，命令格式如下：

注：-y表示測試網速的時間； -Y表示-y這段時間下載的字節量（byte為單位）； -m表示容許請求連接的最大時間，超過則連接自動斷掉放棄連接

proxy代理下載，是通過連接一台中間服務器間接下載url網頁的過程，不是url直接連接網站服務器下載

xroxy.com（通過設置端口類型、代理類型、國家名稱進行篩選）

在freeproxylists.net網站，選擇一台中國的免費代理服務器為例，來介紹proxy代理抓取網頁：

218.107.21.252:8080（ip為218.107.21.252；port為8080，中間以冒號“:”隔開，組成一個套接字）

curl -x 218.107.21.252:8080 -o aaaaa http://www.baidu.com（port 常見有80，8080，8086，8888，3128等，默認為80）

注：-x表示代理服務器（ip:port），即curl先連接到代理服務器218.107.21.252:8080，然后再通過218.107.21.252:8080下載百度首頁，最后218.107.21.252:8080把下載的百度首頁傳給curl至本地（curl不是直接連接百度服務器下載首頁的，而是通過一個中介代理來完成）

wget通過代理下載，跟curl不太一樣，需要首先設置代理服務器的http_proxy=ip:port

以ubuntu為例，在當前用戶目錄（cd ~），新建一個wget配置文件（.wgetrc），輸入代理配置：

ftp協議、迭代子目錄等更多的curl 和 wget用法，可以man查看幫助手冊

在國內，由於某種原因一般難以直接訪問國外某些敏感網站，需要通過 VPN 或代理服務器才能訪問

如果校園網和教育網有IPv6，則可以通過sixxs.org免費代理訪問facebook、twitter、六維空間等網站

其實，除了VPN 和 IPv6+sixxs.org代理方式外，普通用戶還是有其它途徑訪問到國外網站

xroxy.com（通過設置端口類型、代理類型、國家名稱進行篩選）

使用curl + freeproxylists.net免費代理，實現了全球12國家google play游戲排名的網頁抓取以及趨勢圖查詢（抓取網頁模塊全部使用Shell編寫，核心代碼約1000行）

curl vs Wget

1 wget

wget是linux最常用的下載命令, 一般的使用方法是: wget + 空格 + 要下載文件的url路徑

簡單說一下-c參數, 這個也非常常見, 可以斷點續傳, 如果不小心終止了, 可以繼續使用命令接着下載

wget是一個從網絡上自動下載文件的自由工具。它支持HTTP，HTTPS和FTP協議，可以使用HTTP代理.

所謂的自動下載是指，wget可以在用戶退出系統的之后在后台執行。這意味這你可以登錄系統，啟動一個wget下載任務，然后退出系統，wget將在后台執行直到任務完成，相對於其它大部分瀏覽器在下載大量數據時需要用戶一直的參與，這省去了極大的麻煩。

wget可以跟蹤HTML頁面上的鏈接依次下載來創建遠程服務器的本地版本，完全重建原始站點的目錄結構。這又常被稱作”遞歸下載”。在遞歸下載的時候，wget遵循Robot Exclusion標准(/robots.txt). wget可以在下載的同時，將鏈接轉換成指向本地文件，以方便離線瀏覽。

wget非常穩定,它在帶寬很窄的情況下和不穩定網絡中有很強的適應性.如果是由於網絡的原因下載失敗，wget會不斷的嘗試，直到整個文件下載完畢。如果是服務器打斷下載過程，它會再次聯到服務器上從停止的地方繼續下載。這對從那些限定了鏈接時間的服務器上下載大文件非常有用。

* 在不穩定的網絡上下載一個部分下載的文件，以及在空閑時段下載

wget -t 0 -w 31 -c -B ftp://dsec.pku.edu.cn/linuxsoft -i filelist.txt -o down.log &

上面的代碼還可以用來在網絡比較空閑的時段進行下載。我的用法是:在mozilla中將不方便當時下載的URL鏈接拷貝到內存中然后粘貼到文件filelist.txt中，在晚上要出去系統前執行上面代碼的第二條。

-e, –execute=COMMAND 執行`.wgetrc’格式的命令，wgetrc格式參見/etc/wgetrc或~/.wgetrc

http://www.itqun.net/content-detail/511328.html
http://www.guanwei.org/post/LINUXnotes/05/Linux-Wget-download-method.html

LINUX命令行下以HTTP方式下載文件的方法
Post by mrchen, 2010-5-23, Views:101
原創文章如轉載，請注明：轉載自冠威博客 [ http://www.guanwei.org/ ]
本文鏈接地址：http://www.guanwei.org/post/LINUXnotes/05/Linux-Wget-download-method.html

順便提一下。如果下載ftp服務器上的文件，可以用ftp命令。然后用get命令下載文件

對於喜歡命令行操作及追求高效率、高速度下載的朋友，推薦使用命令行下載工具。命令行工具不但使用方便，而且大多具有很高的下載速度及下載效率，尤其適合於大批量下載文件。下面就為大家詳細介紹一下這些工具。

Wget是一個十分常用命令行下載工具，多數Linux發行版本都默認包含這個工具。如果沒有安裝可在http://www.gnu.org/software/wget/wget.html下載最新版本，並使用如下命令編譯安裝：

    #tar zxvf wget-1.9.1.tar.gz
    #cd wget-1.9.1 #./configure
    #make #make install

◆-t：嘗試連接次數，當Wget無法與服務器建立連接時，嘗試連接多少次。

◆-c：斷點續傳，如果下載中斷，那么連接恢復時會從上次斷點開始下載。

除了上述常用功能，Wget還支持HTTP和FTP代理功能，編輯其配置文件“/etc/wgetrc”即可。具體方法是使用VI編輯器打開上述文件，將 “http_proxy”和“ftp_proxoy”前的#去掉，然后在這兩項后輸入相應的代理服務器的地址，保存退出即可。此外，Wget還可下載整個網站，如下載整個Man手冊中心。只需輸入如下命令即可： #wget -r -p -np -k http://man.chinaunix.net

其中-r參數是指使用遞歸下載，-p是指下載所有顯示完整網頁所以需要的文件，如圖片等，-np是指不搜索上層目錄，-k則是指將絕對鏈接轉換為相對鏈接。

2 Prozilla

Prozilla也是一個十分流行的命令行下載工具，支持多線程下載和斷點續傳功能。可到http://prozilla.genesys.ro/下載最新的1.3.7.4安裝包，下載安裝包后使用如下命令進行安裝：

    #tar zxvf prozilla-1.3.7.4.tar.gz
    #cd prozilla-1.3.7.4
    #./configure #make
    #make install

Prozilla命令格式如下： #proz [參數] [下載地址] 常用的選項有：

◆-k=n ：設置n個線程下載。不加此參數指定線程數，Prozilla默認為4線程下載。

◆-r, --resume：繼續下載未完成的文件。如果要指定線程數下載可用如下命令： #proz -k=5 http://64.12.204.21/pub/mozilla.org/firefox/releases/1.0/linux-i686/zh-CN/firefox-1.0.installer.tar.gz 這樣便以5線程進行文件的下載，並將文件保存到當前目錄。和Wget一樣，Prozilla也提供了續傳功能，下載中斷后，重新輸入上述命令，就會出現提示續傳，按R鍵就可繼續下載了。

3 Myget

MyGet目標設計成一個可擴展的，擁有豐富界面的多線程下載工具，它支持HTTP、FTP、HTTPS、MMS、RTSP等協議。在 http://myget.sourceforge.net/release/myget-0.1.0.tar.bz2下載其最新版本0.1.0，下載后使用如下命令安裝：

    #tar jxvf myget-0.1.0.tar.bz2
    #cd myget-0.1.0 #./configure
    #make
    #make install

◆-d [目錄]：指定下載到的文件在本地存放的位置，默認當前目錄。

◆-x [代理服務器地址]：設置代理服務器地址，如“-x http://user:password@host :port”。 MyGet常用的形式如下： #mytget －d /root/ -n 10 http://lumaqq.linuxsir.org/download/patch/lumaqq_2004t_patch_2005.07.21.00.00.zip

4 Linuxdown

Linuxdown是一個命令行多線程下載工具，最多可支持30線程的下載。在https://gro.clinux.org/frs /download.php/1015/linuxdown-1.0.0.tar.gz下載最新的1.1.0版本。然后使用如下命令進行編譯安裝：

    #tar zxvf linuxdown-1.1.0.tar.gz
    #cd dandelion/
    #make
    #make install

Linuxdown格式為： #linuxdown [下載地址] [選項] [線程數] 需要注意的是下載地址和選項都需要西文引號括起來，線程數不可超過30個。一個典型的下載如下： #linuxdown "http://lumaqq.linuxsir.org/download/patch/lumaqq_2004t_patch_2005.07.21.00.

5 Curl

Curl也是Linux下不錯的命令行下載工具，小巧、高速，唯一的缺點是不支持多線程下載。在http://curl.haxx.se/download/curl-7.14.0.tar.gz下載最新版本。下載后便可使用如下命令編譯安裝：

    #tar zxvf curl-7.14.0.tar.gz
    #cd curl-7.14.0/
    #./configure
    #make
    #make test
    #make install

Curl使用格式如下： #curl [選項][下載地址] Curl典型下載如下： #curl -O http://10.1.27.10/~kennycx/tools/lumaqq_2004-linux_gtk2_x86_with_jre.tar.gz 使用Curl下載一個文件並保存到當前目錄。此外，Curl雖然不支持多線程下載，但它可同時下載多個文件或下載文件的某一部分，可使用如下命令實現： #curl -r 0-199 http://www.netscape.com/ 獲得文件的前200 bytes。對於常用的代理下載Curl也可輕松實現，具體操作如下： #curl -x 10.1.27.10:1022 ftp://ftp.funet.fi/README 使用代理地址為10.1.27.10端口為1022的代理服務器下載一個文件。 #curl -U user:passwd -x 10.1.27.10:1022 ftp://ftp.funet.fi/README 如果代理服務器需要特別的驗證，則需要在user:passwd處輸入合法的帳

6 Axel

Axel是命令行下的多線程下載工具，支持斷點續傳，速度通常情況下是Wget的幾倍。可在http://www.linuxfans.org /nuke/modules.php?name=Site_Downloads&op=mydown&did=1697下載。下載后使用如下命令編譯安裝：

    #tar zxvf axel-1.0a.tar.gz
    #cd axel-1.0a/
    #./configure
    #make
    #make install

基本的用法如下： #axel [選項] [下載目錄] [下載地址] 一個典型下載如下： #alex -n 10 -o /home/kennycx/ http://10.1.27.10/~kennycx/tools/lumaqq_2004-linux_gtk2_x86_with_jre.tar.gz 用10線程將指定路徑的文件下載到/home/kennycx/這個目錄下。

本文詳細介紹了Linux中常用的下載工具，這些下載工具功能上各有千秋，使用上都比較簡單，所以無論是初學者還是Linux高手總有一款適合你。

Linux下用命令行也可以下載HTTP網站的文件。順便提一下，如果是ftp網站可以用ftp命令然后get XXX。