進度條加載與案例優化對比——python使用perf_count方法實現

　　前一陣子再做網略爬蟲，就拿這個最簡單例子來講解感覺挺適合的。

　　盡管Requests庫功能很友好、開發簡單（其實除了import外只需一行主要代碼），但其性能與專業爬蟲相比還是有一定差距的。請編寫一個小程序，“任意”找個url，測試一下成功爬取100次網頁的時間。(某些網站對於連續爬取頁面將采取屏蔽IP的策略，所以，要避開這類網站。)

　　在這里我們以百度為url鏈接測試，代碼如下：

first_test.py

import time

import requests

def getHtml(url):
    
    try:
    
        r = requests.get(url)

        r.raise_for_status()

        r.encoding = r.apparent.encoding

        return url.text
    
    except:

        return("The requests get url found unkonw-mistakes.")

def main():

    url = "https://baidu.com"

    time1 = time.time()

    i = 0

    while(i<100):

        start = time.time()

        getHtml(url)

        end = time.time()

        i += 1

        print('第{}次爬取耗時{}s'.format(i+1,end-start))

    time2 = time.time()

    print(time2-time1)

if __name__ =='__main__':

    main()

運行結果：

　　如圖所示大約共耗時31.19s .　

ok，讓我們進行接下來的測試.........

second_test.py

import requests

import time 
 
def getHTMLText_timecost(url):

    try:

        r = requests.get(url,timeout = 30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return 'ERRO'
     
def main():
    
    url = 'https://www.baidu.com'
    
    sumtime = 0
    
    succtimes = 0
    
    for i in range(100):
    
        start = time.time()
    
        res = getHTMLText_timecost(url)
    
        if res != 'ERRO':
    
            succtimes += 1
    
        end = time.time()
    
        timecost = end - start
    
        sumtime += timecost

        print('第{}次爬取耗時{}s'.format(i+1,timecost))

    print('共爬取{}次，耗時{}s,其中爬取成功{}次'.format(i+1,sumtime,succtimes))
     

if __name__ == '__main__':

    main()

運行結果：

　　經過這兩段代碼的調試運行，我們發現相同功能下不同代碼之間存在着性能的差異，並隨着運

算工作量的提升而愈發明顯這就需要我們對代碼進行科學的分析與思考尋求更優的方案投入到實際應用中。

進度條加載與案例優化對比——python使用perf_count方法實現

本章我們將討論python3 perf_counter()的用法及它的實際應用我從中選取兩個python基於rquests庫的爬蟲實例代碼源文件進行舉例

Python3 perf_counter() 用法：

Requests庫的爬取性能分析

免責聲明！