1. 介紹
在過去幾年中,神經網絡已經有了很壯觀的進展,現在他們幾乎已經是圖像識別和自動翻譯領域中最強者[1]。為了從海量數據中獲得洞察力,需要部署分布式深度學習。現有的DL框架通常需要為深度學習設置單獨的集群,迫使我們為機器學習流程創建多個程序(見Figure 1)。擁有獨立的集群需要我們在它們之間傳遞大型數據集,從而引起不必要的系統復雜性和端到端的學習延遲。
TensorFlow是Google公司剛剛發布不久一款用於數值計算和神經網絡的深度學習框架。
TensorFlowOnSpark是yahoo今年剛開源的一個項目,目的就是充分發掘TensorFlow在現有的大數據集群上進行高效深度學習的能力,利用TensorFlowOnSpark,數據科學家和工程師們可以直接利用運行於CPU/GPU架構上的Spark或者Hadoop做分布式模型訓練。該庫支持把現有的TensorFlow程序切換到新的API,同時實現了模型訓練的性能提升。
在開源公告里,雅虎說明了TensorFlowOnSpark想解決的問題,比如在深度神經網絡訓練中管理Spark數據管線之外的其他集群帶來的運維負載,以網絡I/O為瓶頸的數據集在訓練集群的傳入和傳出,令人討厭的系統復雜性,以及端到端的整體學習時延。TensorFlowOnSpark的工作和雅虎之前開源的CaffeOnSpark相似。現有的對TensorFlow和Spark的集成所做的努力,有DataBricks的TensorFrame,以及Amp Lab 的SparkNet,這些對於雅虎來說都是在正確方向上的邁進,但是在允許TensorFlow進程之間直接通信方面還是有所欠缺。雅虎的目標之一,是讓TensorFlowOnSpark成為一個完全對Spark兼容的API,在一個Spark處理工作流里,其集成能力能跟SparkSQL、MLib以及其他Spark核心庫一樣好。
在架構上,它把給定TensorFlow算法和TensorFlow core放在一個Spark Executor中,並讓TensorFlow任務能夠通過TensorFlow的文件閱讀器和QueueRunners直接獲取HDFS數據,這是一種有着更少網絡I/O以及“把計算帶給數據”的方案。TensorFlowOnSpark在語義上就支持對執行器的端口預留和監聽,對數據和控制函數的消息輪詢,TensorFlow主函數的啟動,數據注入,直接從HDFS讀取數據的閱讀器和queue-runner機制,通過feed_dict向TensorFlow注入Spark RDD,以及關機。
除了TensorFlowOnSpark,yahoo還在他們自己的分支上擴展了TensorFlow核心C++引擎以在Infiniband里使用RDMA,這個需求在TensorFlow主項目里被提出過還產生了相關討論。雅虎的Andy Feng注意到,使用RDMA而不是gRPC來做進程間通信,在不同的網絡里會帶來百分之十到百分之兩百不等的訓練速度的提升[2]。
2.TensorFlowOnSpark核心技術點
- 輕松遷移所有現有的TensorFlow程序,<10行代碼更改;
- 支持所有TensorFlow功能:同步/異步訓練,模型/數據並行,推理和TensorBoard;
- 服務器到服務器的直接通信在可用時實現更快的學習;
- 允許數據集在HDFS和由Spark推動的其他來源或由TensorFlow拖動;
- 輕松集成您現有的數據處理流水線和機器學習算法(例如,MLlib,CaffeOnSpark);
- 輕松部署在雲或內部部署:CPU和GPU,以太網和Infiniband[3]。
3.基於Hadoop分布式群YARN模式的搭建
官方指導鏈接:https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN,這篇文章過於簡略,很多地方都沒有說明白,初學者會繞很多彎路,也許是因為這個項目剛剛開源不久,很多指導性的說明都沒有。簡言之,官網的 Instructions 略坑,搭建成功與否靠人品。
以下是本人實踐成功的步驟:
3.1 環境准備
已經安裝了 Spark 的 Hadoop 分布式集群環境(安裝於 Ubuntu Server 系統),下表顯示了我的集群環境( Spark 已經開啟):
主機名 | ip | 用途 |
master | 192.168.0.20 | ResourceManager NameNode SecondaryNameNode Master |
node1 | 192.168.0.21 | DataNode NodeManager Worker |
node2 | 192.168.0.22 | DataNode NodeManager Worker |
這里給大家推薦一個超詳細的關於部署 Hadoop 完全分布式集群的博客:http://blog.csdn.net/dream_an/article/details/52946840[4]
3.2 在 Master 節點上進行:
(1) 安裝 Python 2.7
這一步的是在本地文件夾里下載安裝 Python ,目的是在進行任務分發的時候能夠把這個 Python 和其他依賴環境(這里指的是包含 TensorFlow)同時分發給對應的 Spark executor ,所以這一步不是單純的只安裝 Python 。
#下載解壓 Python 2.7
export PYTHON_ROOT=~/Python curl -O https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgz tar -xvf Python-2.7.12.tgz rm Python-2.7.12.tgz
#在編譯 Python 之前,需要完成以下工作,否則編譯產生的 python 會出現沒有 zlib 、沒有 SSL 模塊等錯誤
#安裝 ruby , zlib , ssl 相關包
sudo apt install ruby
sudo apt install zlib1g,zlib1g.dev
sudo apt install libssl-dev
#進入剛才解壓的 Python 目錄,修改 Modules/Setup.dist文件,該文件是用於產生 Python 相關配置文件的
cd Python-2.7.12
sudo vim Modules/Setup.dist
#去掉 ssl , zlib 相關的注釋:
#與 ssl 相關:
#SSL=/usr/local/ssl
#_ssl _ssl.c \
# -DUSE_SSL -I$(SSL)/include -I$(SSL)/include/openssl \
# -L$(SSL)/lib -lssl -lcrypto
#與 zlib 相關:
#zlib zlibmodule.c -I$(prefix)/include -L$(exec_prefix)/lib -lz
#編譯 Python 到本地文件夾 ${PYTHON_ROOT}
pushd Python-2.7.12
./configure --prefix="${PYTHON_ROOT}" --enable-unicode=ucs4
#./configure 這一步如果提示 "no acceptable C compiler" , 需要安裝 gcc : sudo apt install gcc
make
make install
popd
rm -rf Python-2.7.12
#安裝 pip
pushd "${PYTHON_ROOT}"
curl -O https://bootstrap.pypa.io/get-pip.py
bin/python get-pip.py
rm get-pip.py
#安裝 pydoop
${PYTHON_ROOT}/bin/pip install pydoop
#這里安裝 pydoop,若是提示錯誤:LocalModeNotSupported,直接下載資源包通過 setup 安裝:
#資源包下載:https://pypi.python.org/pypi/pydoop
#tar -xvf pydoop-1.2.0.tar.gz
#cd pydoop-1.2.0
#python setup.py build
#python setup.py install
#安裝 TensorFlow
${PYTHON_ROOT}/bin/pip install tensorflow
#這里安裝 tensorflow ,不需要從源碼進行編譯安裝,除非你需要 RDMA 這個特性
popd
(2) 安裝 TensorFlowOnSpark
git clone https://github.com/yahoo/TensorFlowOnSpark.git
git clone https://github.com/yahoo/tensorflow.git
#從 yahoo 下載的 TensorFlowOnSpark 資源包里面 tensorflow 是空的文件夾,git 上該文件夾連接到了 yahoo/tensorflow ,這里需要我們將 tensorflow 拷貝到 TensorFlowO#nSpark 下面:
sudo rm -rf TensorFlowOnSpark/tensorflow/
sudo mv tensorflow/ TensorFlowOnSpark/
#上面 tensorflow 和 TensorFlowOnSpark 文件目錄根據自己的實際情況修改,我的是在根目錄下面,所以如上
(3) 安裝編譯 Hadoop InputFormat/OutputFormat for TFRecords
#安裝以下依賴工具:
sudo apt install autoconf,automake,libtool,curl,make,g++,unzip,maven
#先安裝 protobuf
# git 上有詳細說明:github上有詳細的安裝說明:https://github.com/google/protobuf/blob/master/src/README.md
#也可以參考鏈接:http://www.itdadao.com/articles/c15a1006495p0.html
#編譯 TensorFlow 的 protos:
git clone https://github.com/tensorflow/ecosystem.git
cd ecosystem/hadoop
protoc --proto_path=/opt/TensorFlowOnSpark/tensorflow/ --java_out=src/main/java/ /opt/TensorFlowOnSpark/tensorflow/tensorflow/core/example/{example,
feature}.proto
mvn clean package
mvn install
#將上一步產生的 jar 包上傳到 HDFS
cd target
hadoop fs -put tensorflow-hadoop-1.0-SNAPSHOT.jar
(4) 為 Spark 准備 Python with TensorFlow 壓縮包
pushd "${PYTHON_ROOT}" zip -r Python.zip * popd #將該壓縮包上傳到 HDFS hadoop fs -put ${PYTHON_ROOT}/Python.zip
(5) 為 Spark 准備 TensorFlowOnSpark 壓縮包
pushd TensorFlowOnSpark/src zip -r ../tfspark.zip * popd
環境基本搭建完成。
4. 測試[5]
1)准備數據
下載、壓縮mnist數據集
mkdir ${HOME}/mnist pushd ${HOME}/mnist >/dev/null curl -O "http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz" curl -O "http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz" curl -O "http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz" curl -O "http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz" zip -r mnist.zip * popd >/dev/null
2)feed_dic方式運行,步驟如下
# step 1 設置環境變量 export PYTHON_ROOT=~/Python export LD_LIBRARY_PATH=${PATH} export PYSPARK_PYTHON=${PYTHON_ROOT}/bin/python export SPARK_YARN_USER_ENV="PYSPARK_PYTHON=Python/bin/python" export PATH=${PYTHON_ROOT}/bin/:$PATH export QUEUE=default # step 2 上傳文件到hdfs hdfs dfs -rm /user/${USER}/mnist/mnist.zip hdfs dfs -put ${HOME}/MLdata/mnist/mnist.zip /user/${USER}/mnist/mnist.zip # step 3 將圖像文件(images)和標簽(labels)轉換為CSV文件 hdfs dfs -rm -r /user/${USER}/mnist/csv ${SPARK_HOME}/bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --queue ${QUEUE} \ --num-executors 4 \ --executor-memory 4G \ --archives hdfs:///user/${USER}/Python.zip#Python,hdfs:///user/${USER}/mnist/mnist.zip#mnist \ TensorFlowOnSpark/examples/mnist/mnist_data_setup.py \ --output mnist/csv \ --format csv # step 4 訓練(train) hadoop fs -rm -r mnist_model ${SPARK_HOME}/bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --queue ${QUEUE} \ --num-executors 3 \ --executor-memory 8G \ --py-files ${HOME}/TensorFlowOnSpark/tfspark.zip,${HOME}/TensorFlowOnSpark/examples/mnist/spark/mnist_dist.py \ --conf spark.dynamicAllocation.enabled=false \ --conf spark.yarn.maxAppAttempts=1 \ --conf spark.yarn.executor.memoryOverhead=6144 \ --archives hdfs:///user/${USER}/Python.zip#Python \ --conf spark.executorEnv.LD_LIBRARY_PATH="$JAVA_HOME/jre/lib/amd64/server" \ ${HOME}/TensorFlowOnSpark/examples/mnist/spark/mnist_spark.py \ --images mnist/csv/train/images \ --labels mnist/csv/train/labels \ --mode train \ --model mnist_model # step 5 推斷(inference) hadoop fs -rm -r predictions ${SPARK_HOME}/bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --queue ${QUEUE} \ --num-executors 3 \ --executor-memory 8G \ --py-files ${HOME}/TensorFlowOnSpark/tfspark.zip,${HOME}/TensorFlowOnSpark/examples/mnist/spark/mnist_dist.py \ --conf spark.dynamicAllocation.enabled=false \ --conf spark.yarn.maxAppAttempts=1 \ --conf spark.yarn.executor.memoryOverhead=6144 \ --archives hdfs:///user/${USER}/Python.zip#Python \ --conf spark.executorEnv.LD_LIBRARY_PATH="$JAVA_HOME/jre/lib/amd64/server" \ ${HOME}/TensorFlowOnSpark/examples/mnist/spark/mnist_spark.py \ --images mnist/csv/test/images \ --labels mnist/csv/test/labels \ --mode inference \ --model mnist_model \ --output predictions # step 6 查看結果(可能有多個文件) hdfs dfs -ls predictions hdfs dfs -cat predictions/part-00001 hdfs dfs -cat predictions/part-00002 hdfs dfs -cat predictions/part-00003 #網頁方式,查看spark作業運行情況,這里的 ip 地址是 master 節點的 ip http://192.168.0.20:8088/cluster/apps/
3) queuerunner方式運行,步驟如下
# step 1 設置環境變量 export PYTHON_ROOT=~/Python export LD_LIBRARY_PATH=${PATH} export PYSPARK_PYTHON=${PYTHON_ROOT}/bin/python export SPARK_YARN_USER_ENV="PYSPARK_PYTHON=Python/bin/python" export PATH=${PYTHON_ROOT}/bin/:$PATH export QUEUE=default # step 2 上傳文件到hdfs hdfs dfs -rm /user/${USER}/mnist/mnist.zip hdfs dfs -rm -r /user/${USER}/mnist/tfr hdfs dfs -put ${HOME}/MLdata/mnist/mnist.zip /user/${USER}/mnist/mnist.zip # step 3 將圖像文件(images)和標簽(labels)轉換為TFRecords ${SPARK_HOME}/bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --queue ${QUEUE} \ --num-executors 4 \ --executor-memory 4G \ --archives hdfs:///user/${USER}/Python.zip#Python,hdfs:///user/${USER}/mnist/mnist.zip#mnist \ --jars hdfs:///user/${USER}/tensorflow-hadoop-1.0-SNAPSHOT.jar \ ${HOME}/TensorFlowOnSpark/examples/mnist/mnist_data_setup.py \ --output mnist/tfr \ --format tfr # step 4 訓練(train) hadoop fs -rm -r mnist_model ${SPARK_HOME}/bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --queue ${QUEUE} \ --num-executors 4 \ --executor-memory 4G \ --py-files ${HOME}/TensorFlowOnSpark/tfspark.zip,${HOME}/TensorFlowOnSpark/examples/mnist/tf/mnist_dist.py \ --conf spark.dynamicAllocation.enabled=false \ --conf spark.yarn.maxAppAttempts=1 \ --conf spark.yarn.executor.memoryOverhead=4096 \ --archives hdfs:///user/${USER}/Python.zip#Python \ --conf spark.executorEnv.LD_LIBRARY_PATH="$JAVA_HOME/jre/lib/amd64/server" \ ${HOME}/TensorFlowOnSpark/examples/mnist/tf/mnist_spark.py \ --images mnist/tfr/train \ --format tfr \ --mode train \ --model mnist_model # step 5 推斷(inference) hadoop fs -rm -r predictions ${SPARK_HOME}/bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --queue ${QUEUE} \ --num-executors 4 \ --executor-memory 4G \ --py-files ${HOME}/TensorFlowOnSpark/tfspark.zip,${HOME}/TensorFlowOnSpark/examples/mnist/tf/mnist_dist.py \ --conf spark.dynamicAllocation.enabled=false \ --conf spark.yarn.maxAppAttempts=1 \ --conf spark.yarn.executor.memoryOverhead=4096 \ --archives hdfs:///user/${USER}/Python.zip#Python \ --conf spark.executorEnv.LD_LIBRARY_PATH="$JAVA_HOME/jre/lib/amd64/server" \ ${HOME}/TensorFlowOnSpark/examples/mnist/tf/mnist_spark.py \ --images mnist/tfr/test \ --mode inference \ --model mnist_model \ --output predictions # step 6 查看結果(可能有多個文件) hdfs dfs -ls predictions hdfs dfs -cat predictions/part-00001 hdfs dfs -cat predictions/part-00002 hdfs dfs -cat predictions/part-00003 #網頁方式,查看spark作業運行情況,這里的 ip 地址是 master 節點對應的 ip http://192.168.0.20:8088/cluster/apps/
5. 參考資料
[1] https://databricks.com/blog/2016/01/25/deep-learning-with-apache-spark-and-tensorflow.html
[2] https://www.infoq.com/news/2017/03/tensorflow-spark
[3] http://blog.csdn.net/sinat_34233802/article/details/68942780
[4] http://blog.csdn.net/dream_an/article/details/52946840
[5] http://blog.csdn.net/hjh00/article/details/64439268
版權聲明:本文未特殊標注為原創,未經博主允許不得轉載。