1、 安裝
https://www.python.org/downloads/windows/ 到官網下載安裝程序
Windows x86 32位操作系統
Windows x86-64 64位操作系統
web-based installer 基於網絡的安裝程序
executable installer 可執行的安裝程序
embeddable zip file python的壓縮包
上面3個任意下載一個就行了,都是一樣的東西。我是下載第2個
help file 幫助文檔
安裝時記得勾上 ADD…to path。
安裝成功后在命令提示符中輸入 PYTHON,如圖顯示版本號就是安裝成功,不是可執行命令的話,在系統變量path 中加上PYTHON的安裝路徑

PYTHON比較重要的幾個環境變量(不是必須,根據需要配置):
| PYTHONPATH |
PYTHONPATH是Python搜索路徑,默認我們import的模塊都會從PYTHONPATH里面尋找。 |
| PYTHONSTARTUP
|
Python啟動后,先尋找PYTHONSTARTUP環境變量,然后執行此變量指定的文件中的代碼。 |
| PYTHONCASEOK |
加入PYTHONCASEOK的環境變量, 就會使python導入模塊的時候不區分大小寫. |
| PYTHONHOME |
另一種模塊搜索路徑。它通常內嵌於的PYTHONSTARTUP或PYTHONPATH目錄中,使得兩個模塊庫更容易切換。 |
2、 爬蟲環境配置
說明:Pip模塊會自動安裝,可以在命令提示符窗口輸入PIP測試是否安裝成功。(直接執行PIP報錯的話,可以CD 到PYTHON安裝目錄的Scripts文件夾下執行,或者直接執行 python -m pip)

確定pip安裝好后,執行以下命令
1、pip install beautifulsoup4
2、到https://pypi.python.org/pypi/lxml/4.1.1 下載lxml庫,記得下載適合自己操作系統和PYTHON版本的,比如我就是下載Windows64位+PYTHON3.6的

3、然后執行這個命令 pip install lxml的文件名及路徑(例如:d:\xx.whl)
4、安裝成功會提示 Successfully installed
3、 將腳本打包為EXE文件
(一)環境配置
1、 執行pip install pypiwin32
2、 執行 pip install pyinstaller
第二步如果安裝不成功可以到http://www.pyinstaller.org/downloads.html下載安裝包,然后執行
Python 解壓后文件路徑\setup.py install
(二)將源文件打包為EXE文件
pyinstaller -F -w 文件名及路徑,成功后會提示存放位置。
-F:打包為單獨的Exe文件 -w:不顯示命令窗口


4、簡單的爬蟲程序和一個簡單的GUI界面
import urllib
import re
from urllib import request
import tkinter as tk
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getImg(html):
imgre = re.compile(r'src="(.+?\.jpg)"')
html = html.decode('utf-8') # python3
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
def start(url):
html = getHtml(url)
print(getImg(html))
x = tk.Tk()
label1 = tk.Label(x,text = "請輸入網址:")
label1.grid(row=0,column=0)
label2 = tk.Label(x,text = "請輸入文件存放路徑:")
label2.grid(row=1,column=0)
var1 = tk.StringVar()
entry1 = tk.Entry(x,textvariable=var1)
entry1.grid(row=0,column=1)
entry2 = tk.Entry(x)
entry2.grid(row=1,column = 1)
def seturl():
url="https://tieba.baidu.com/p/5475267611"
# 本來想動態獲取文本框輸入的,不知道為什么WINDOWS10上運行返回值是NONE,
# 另一台電腦WIN7卻又可以,不知道是不是環境配置問題
# print(var1.get())
start(url)
cbbtn1 = tk.Checkbutton(x,text = "同意協議")
cbbtn1.grid(row = 2, column = 0)
btn1 = tk.Button(x,text = "開始抓取",command = seturl)
btn1.grid(row = 2,column = 2)
btn2 = tk.Button(x,text = "取消")
btn2.grid(row = 2,column = 3)
#img = tk.PhotoImage(file = "C:\Users\123456\Pictures\lovewallpaper\11.jpg")
#imgview = tk.Label(x,image = img)
#imgview.grid(row = 0,column = 2)
x.mainloop()
