很多朋友想學習機器學習,卻苦於環境的搭建,這里給出windows上scikit-learn研究開發環境的搭建步驟。
Step 1. Python的安裝
python有2.x和3.x的版本之分,但是很多好的機器學習python庫都不支持3.x,因此,推薦安裝2.7版本的python。當前最新的python是2.7.12.鏈接如下:
https://www.python.org/downloads/release/python-2712/
里面可以看到有32位版和64位版的。如果你的機器是64位版的,那么32位和64位版的任選一個安裝就可以了。如果機器是32位版的,就只能安裝32位版的了。如果你搞不清楚你的機器的位數,那么就安裝32位版的吧。也就是“Windows x86 MSI installer”。
Windows x86-64 MSI installer | Windows | for AMD64/EM64T/x64, not Itanium processors | 8fa13925db87638aa472a3e794ca4ee3 | 19820544 | SIG |
Windows x86 MSI installer | Windows | fe0ef5b8fd02722f32f7284324934f9d | 18907136 | SIG |
安裝完畢后,可以設置下環境變量,把python目錄加到PATH,比如我的Python裝在 C:\Python27,那我就把C:\Python27\Scripts和C:\Python27加到環境變量。當然不加也可以。這樣每次使用Python時加上python的全路徑名。
安裝完成后,在windows的命令行輸入python,如果能出來python的基本信息說明安裝成功。
Step 2. Python包管理工具pip的安裝
我們需要包管理工具來方便python庫的安裝,包管理工具有很多,這里推薦我習慣使用的pip。
下載pip的安裝腳本。鏈接如下。下載get-pip.py。然后到你的下載目錄,在命令行輸入"python get-pip.py",跑完即可安裝成功。
https://pip.pypa.io/en/stable/installing/
下載完畢后,記得跑下這個命令“pip install -U pip”,一是看看pip能不能正常工作,二是把pip升級到最新版本。
Step 3. 安裝 Visual C++ Compiler for Python
鏈接在這: https://www.microsoft.com/en-us/download/details.aspx?id=44266
這個不裝后面很多科學計算的都會裝不了。
Step 4. 安裝numpy和scipy
這兩哥們是科學計算和矩陣運算必備工具。
由於numpy和scipy直接用pip安裝經常會出各種各樣的問題,因此一般推薦下載離線版的whl來安裝numpy和scipy。
首先安裝離線版的numpy,這里我一般是在下面的鏈接下載numpy,當然scipy也是在這。
http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy
可以看到里面有很多版本的numpy可以下載,我們的python是2.7,windows 32位的,因此下載“numpy-1.11.2+mkl-cp27-cp27m-win32.whl”
下載完畢后進入下載目錄,在命令行運行 "pip install numpy-1.11.2+mkl-cp27-cp27m-win32.whl" ,這樣numpy就安裝成功了。
用同樣的方法安裝scipy。在下面的鏈接下載scipy。
http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy
我們的python是2.7,windows 32位的,因此選擇scipy-0.18.1-cp27-cp27m-win32.whl下載。
完了運行 "pip install scipy-0.18.1-cp27-cp27m-win32.whl"
這樣numpy和scipy兩個好基友就搞定了。
Step 4. 安裝matplotlib,pandas和scikit-learn
這沒有什么好說的,直接在命令行運行下面的命令即可。注意,先安裝matplotlib再安裝pandas
pip install -U matplotlib
pip install -U jinja2
pip install -U jsonschema
pip install -U pyzmq
pip install -U pandas
pip install -U scikit-learn
Step 5. 安裝ipython和ipython notebook
ipython notebook是最常用的python交互式學習工具,當然,現在叫做Jupyter Notebook。scikit-learn官方的例子都給出了用ipython notebook運行的版本。
安裝方式很簡單:
pip install ipython
pip install jupyter
官網在這:http://ipython.org/notebook.html
安裝完畢后,在命令行輸入“jupyter-notebook”,輸出會提示你notebook運行在http://localhost:8888
Step 6. Hello World!嘗試運行一個scikit-learn機器學習程序
在scikit-learn官網下載一個機器學習的例子,比如: http://scikit-learn.org/stable/_downloads/plot_cv_predict.ipynb
然后在下載目錄運行"jupyter notebook",接着瀏覽器打開http://localhost:8888
。
可以在瀏覽器看到你下載目錄的內容,我們打開剛下載的plot_cv_predict.ipynb這個文件鏈接,可以看到python程序的內容,這時我們可以點上面的三角形按鈕,一步步的運行程序,如果沒有報錯,最后可以看到一個線性回歸的預測圖。
可以修改這個程序,重新一步步的跑,達到研究學習的目的。
以上就是scikit-learn和pandas環境的搭建過程。希望大家都可以搭建成功,來研究機器學習。
(歡迎轉載,轉載請注明出處。歡迎溝通交流: liujianping-ok@163.com)