今天學了會Python爬蟲,走的是福利路線(mzitu.com)
爬蟲還是很順利的,但是保存福利圖的時候遇到了很多困難
需求就是根據網頁標題來創建文件夾存儲當前網頁的H圖
首先網頁標題獲取的時候特意用
type(title)
看了一下,是unicode,為了實現過濾某些字符,比如"?"之類的需要用str.replace()
但是直接
str(title)
是不可以的,所以要在爬蟲代碼最前加入
import sys reload(sys) sys.setdefaultencoding('utf-8')
之后在Windows創建文件夾,以標題為文件夾名
在百度了無數大神的經典解說后,並沒卵用(全TM說轉碼GBK、GB2312、GB18030)
自己試出來了,轉UTF-8即可
path = str(title).strip().decode('utf-8') os.makedirs(os.path.join("D:\mzitu", path)) oschdir("D:\mzitu\\" + path)
於是 get√