爬蟲簡單基礎代碼

本文轉載自查看原文 2018-04-28 20:56 1203

以下代碼可以去掉注釋單獨運行：

 1 import urllib.request
 2 
 3 url = 'http://www.jianshu.com/'
 4 response = urllib.request.urlopen(url=url) #第一個參數是要打開的url 第二個是data表示post請求時 使用的 print(type(response))\
 5 #   #返回的是一個HTTPResponse對象
 6 # print(response.read())   #讀取了所有網頁的內容 包括換行符和制表符，獲取的二進制數據
 7 # print(response.read().decode('utf-8')) #解碼后進行輸出  #字符串-》字節：編碼  encode()  字節-》字符串：解碼  decode()
 8 # print(response.readline())  #讀取一行
 9 # print(response.readlines())  #讀取全部返回一個列表
10 # print(response.getheaders())  #返回一個響應頭信息，列表里面有元組
11 # urllib.request.urlretrieve(url=url,filename='baidu.html') #將文件下載到本地並命名，可以下載網頁 圖片 視頻等
12 # urllib.parse #處理url的urllib.parse.urlencode 介紹post請求的時候再說這個函數
13 print(response.getheaders())
14 #編碼:因為瀏覽器並不能識別你請求里面的中文字符
15 # 編碼
16 # string = urllib.parse.quote('http://www.baidu.com?username=狗蛋&password=123')
17 # print(string)
18 #解碼
19 # string = urllib.parse.unquote('http%3A//www.baidu.com%3Fusername%3D%E7%8B%97%E8%9B%8B%26password%3D123')
20 # print(string)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 簡單反爬蟲代碼爬蟲基礎庫之beautifulsoup的簡單使用爬蟲基礎以及一個簡單的實例（requests，re） Python 開發簡單爬蟲 - 基礎框架 html 基礎代碼及簡單框架【代碼回溯】最簡單的一個python爬蟲代碼 Python簡單基礎小程序的實例代碼 SOCKET簡單爬蟲實現代碼和使用方法 [爬蟲]Python爬蟲基礎簡單的爬蟲