今天在研究Python爬蟲機制,起初遇到一些坑,把我自己的經歷寫出來,分享大家,少踩坑
開始代碼入錯(錯誤代碼),不過個人建議有些坑踩一踩還是有必要的,加深記憶
import urllib def run_demo(): f=urllib.urlopen('http://www.baidu.com') print(f.readline()) if __name__=='__main__': run_demo()
執行結果如下
Traceback (most recent call last):
File "D:/gamepython/pabug/__init__.py", line 9, in <module>
run_demo()
File "D:/gamepython/pabug/__init__.py", line 5, in run_demo
f=urllib.urlopen('http://www.baidu.com')
AttributeError: module 'urllib' has no attribute 'urlopen'
分析:紅色的部分表示找不到,一般出現這樣的問題有這么幾種方式
① 沒有引入對應的包,畢竟python的包多如屎
② 有人說是因為你的這個工程目錄下可能有一個自己定義的文件與urllib重名,導致上述代碼在引用時實際引用的是自定義的那個urllib,結果查找自己的項目文件夾下也沒有重名的文件。
但是這個問題就是特別的奇怪,都是不屬於上面的情況,在網上查了后原因如下
Python3.X中應該用urllib.request。更改后就不會再出現這個錯誤了
import urllib.request def run_demo(): f=urllib.request.urlopen('http://www.baidu.com') print(f.read()) if __name__=='__main__': run_demo()
顯示結果如下
b'<!DOCTYPE html>\n<!--STATUS OK-->\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\