記錄解決python在spark運行加載第三方庫的問題


一般寫python的我們經常會import一些常用的庫,然后有時集群環境上的python沒有這些庫,怎么辦呢?

通過一段時間的摸索發現有二種方式可以解決這個問題:

第一種方法:

下載對應python的pypi里面庫的文件,注意這個要求是wheel后綴或者是zip的,然后上傳到python的py文件

對應的目錄下面:

可以看到解壓后的文件是上面形式的,在這個文件目錄下面import numpy 是沒有問題的!!!

這個也是python package支持的一種形式,它會默認把當前路徑加入到可執行的路徑path,這樣的話import就可以找到對應的庫文件進行import。

 

第二種方法:

在第一種方法的基礎上,我發現package的path默認是在python的lib的site-packages這個文件夾里面,so 我們可以這樣做:

首先下載這些包:setuptools-36.6.0-py2.py3-none-any.whl

pip-8.1.0.tar.gz

然后把setuptools的文件解壓到site-packages目錄下:

解壓tar -zxvf pip-8.1.0.tar.gz -C /op/

cd pip-8.1.0

python setup.py install

成功安裝pip

然后就可以離線安裝一些庫了,下載wheel文件之后直接pip install ***.whl

可以看到可以import sklearn這個python常用的機器學習庫了!!!

接下來我們測試一下pyspark可不可以import:

接下來就可以用庫在spark上面調用,暢游spark吧。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM