一般寫python的我們經常會import一些常用的庫,然后有時集群環境上的python沒有這些庫,怎么辦呢?
通過一段時間的摸索發現有二種方式可以解決這個問題:
第一種方法:
下載對應python的pypi里面庫的文件,注意這個要求是wheel后綴或者是zip的,然后上傳到python的py文件
對應的目錄下面:

可以看到解壓后的文件是上面形式的,在這個文件目錄下面import numpy 是沒有問題的!!!
這個也是python package支持的一種形式,它會默認把當前路徑加入到可執行的路徑path,這樣的話import就可以找到對應的庫文件進行import。
第二種方法:
在第一種方法的基礎上,我發現package的path默認是在python的lib的site-packages這個文件夾里面,so 我們可以這樣做:

首先下載這些包:setuptools-36.6.0-py2.py3-none-any.whl
pip-8.1.0.tar.gz
然后把setuptools的文件解壓到site-packages目錄下:
解壓tar -zxvf pip-8.1.0.tar.gz -C /op/
cd pip-8.1.0
python setup.py install
成功安裝pip

然后就可以離線安裝一些庫了,下載wheel文件之后直接pip install ***.whl


可以看到可以import sklearn這個python常用的機器學習庫了!!!
接下來我們測試一下pyspark可不可以import:

接下來就可以用庫在spark上面調用,暢游spark吧。
