今天在學習用Python3.5寫一個爬取新浪博客的爬蟲,可以爬取某人的博客全部文章,或者單獨一篇文章的文本內容,部包括圖片,改天把代碼放上來。爬蟲參照了網上某人用python2寫的打碼,鏈接:http://www.jb51.net/article/67820.htm。
遇到了很多問題,百度搜索,修改了一天才沒有出錯完成。
保存文件的時候,遇到路徑問題,網上搜索不到,自己解決的,把方法貼出來。
系統環境,Win10 + Python3.5.1
1 >>> import os 2 >>> m = os.path.join('路徑','文件名.txt') 3 >>> m 4 '路徑\\文件名.txt' 5 >>> m.replace('\\','/') 6 '路徑/文件名.txt' 7 >>>
我測試了,Win10支持反斜杠。上面是相對路徑,如果要獲取絕對路徑,可以使用:
os.path.abspath() #獲取當前路徑的絕對路徑
1 >>> m = os.path.join('路徑','文件名.txt') 2 >>> m 3 '路徑\\文件名.txt' 4 >>> m = os.path.abspath(m) 5 >>> m 6 'D:\\lianxi\\spider\\路徑\\文件名.txt' 7 >>> m.replace('\\','/') 8 'D:/lianxi/spider/路徑/文件名.txt'