text和content的區別?
requests對象的get和post方法都會返回一個Response對象, 這個對象里面存的是服務器返回的所有信息,包括響應頭,響應狀態碼等。
其中返 回的網頁部分會存在.content和.text 兩 個對象中
1.content中間存的是字節流數據
2.text中存的是根據requests模塊自己猜測的編碼方式將content內容編碼成Unicode
常常我們使用requests.content輸出的內容是需要解碼的(因為網頁上的內容是編碼而成的,而在Python中字符串形式是以Unicode形式存在的,當然我們只想看到那些字符串,不想看到那些亂七八糟的字節,所以我們爬下來的東西才需要去解碼)
encode和decode
decode可以解碼什么類型的數據? 二進制還是unicode?
encode()這個函數將字符串轉化成相應編碼方式的字節形式。
decode()函數是bytes類型轉str類型
result = requests.get(“http://www.baidu.com“) result.encoding='utf-8' result_text = result.text
import requests
url = 'https://www.baidu.com'
r = requests.get(url=url)
result = r.text
result = result.encode('ISO-8859-1').decode('utf-8')
print(result)
