練手爬蟲用urllib模塊獲取

有個人看一段python2的代碼有很多錯誤

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist 

html = getHtml("https://zwk365.com") //攢外快網
print getImg(html)

修改后python3的代碼

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url) #獲取網站
    html = page.read() #內容讀取,返回的html是字節的格式
    return html

def getImg(html):
    # print(str(html,encoding='utf8'))   #內容以爬下來為准而不是網站上的
    reg = 'data-original="(.*?)"'  #設置下內容的re格式
    imglist = re.findall(reg,str(html,encoding='utf8'),re.S)
    return imglist

html = getHtml("https://zwk365.com")
print(getImg(html))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲練手項目：獲取豆瓣評分最高的電影並下載 python爬蟲-urllib模塊 Python爬蟲-urllib模塊爬蟲-urllib3模塊的使用爬蟲之urllib.error模塊爬蟲之urllib包以及request模塊和parse模塊爬蟲之urllib包以及request模塊和parse模塊 python爬蟲必學標准模塊——urllib和urllib3詳解 python3爬蟲學習（一）urllib模塊的使用 python 爬蟲 urllib模塊發起post請求