python3爬蟲初探(一)之urllib.request


---恢復內容開始---

#小白一個,在此寫下自己的python爬蟲初步的知識.如有錯誤,希望諒解並指出。

#歡迎和大家交流python爬蟲相關的問題

#2016/6/18

#----第一把武器-----urllib.request---------

  urllib.request是python3自帶的庫(python3.x版本特有),我們用它來請求網頁,並獲取網頁源碼。話不多說,上代碼。

import urllib.request  #調入要使用的庫

url = 'http://www.baidu.com'
data = urllib.request.urlopen(url)  #urlopen用來打開一個網頁
data = data.read()   #這里的rend()是必須的,否則不能打印源碼。
print(data)     #在python3里面print是要加括號的
#b'<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/
#這是部分源碼,現在已經成功走出第一步了,之后就是解析網頁了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM