import requests
from retrying import retry
reuquests和retrying的下載及安裝可以通過命令行pip install 口令實現
# 調用重連裝飾器固定格式,最大重試3次
@retry(stop_max_attempt_number=3)
def get12306():
print("123")
# 此時的123,代碼報錯打印3次,成功爬取只打印1次
url = "https://www.12306.cn/mormhweb/"
# 最多響應3秒,verify=false是ssl證書錯誤添加的參數
response = requests.get(url,timeout=3)
print(response.content.decode())
# content為二進制字節類型,使用decode函數解碼
if __name__ == '__main__':
try:
get12306()
except:
# 捕獲異常,3次鏈接錯誤報1次此代碼
print("finish")
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人)就是 模擬客戶端(主要指瀏覽器)發送網絡請求,接收請求響應,按照一定的規則,自動地抓取互聯網信息的程序。
原則上,只要是客戶端(主要指瀏覽器)能做的事情,爬蟲都能夠做。爬蟲的主要用途:網絡信息的采集,12306搶票,網絡上的投票,相較之前的人工采集數據節省了大量的人力與物力。