練手爬蟲用urllib模塊獲取


練手爬蟲用urllib模塊獲取

有個人看一段python2的代碼有很多錯誤

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist 

html = getHtml("https://zwk365.com") //攢外快網
print getImg(html)

修改后python3的代碼

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url) #獲取網站
    html = page.read() #內容讀取,返回的html是字節的格式
    return html

def getImg(html):
    # print(str(html,encoding='utf8'))   #內容以爬下來為准而不是網站上的
    reg = 'data-original="(.*?)"'  #設置下內容的re格式
    imglist = re.findall(reg,str(html,encoding='utf8'),re.S)
    return imglist

html = getHtml("https://zwk365.com")
print(getImg(html))


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM