不多說,直接上干貨!
前期博客
Zeppelin的入門使用系列之創建新的Notebook(一)
接下來,我將以ml-100k數據集,示范如何使用Spark SQL進行數據分析與數據可視化
因為
[hadoop@master zeppelin]$ pwd /home/hadoop/data/zeppelin [hadoop@master zeppelin]$ ll total 4812 -rw-rw-r-- 1 hadoop hadoop 4924029 Sep 2 11:00 ml-100k.zip [hadoop@master zeppelin]$ unzip ml-100k.zip Archive: ml-100k.zip creating: ml-100k/ inflating: ml-100k/allbut.pl inflating: ml-100k/mku.sh inflating: ml-100k/README inflating: ml-100k/u.data inflating: ml-100k/u.genre inflating: ml-100k/u.info inflating: ml-100k/u.item inflating: ml-100k/u.occupation inflating: ml-100k/u.user inflating: ml-100k/u1.base inflating: ml-100k/u1.test inflating: ml-100k/u2.base inflating: ml-100k/u2.test inflating: ml-100k/u3.base inflating: ml-100k/u3.test inflating: ml-100k/u4.base inflating: ml-100k/u4.test inflating: ml-100k/u5.base inflating: ml-100k/u5.test inflating: ml-100k/ua.base inflating: ml-100k/ua.test inflating: ml-100k/ub.base inflating: ml-100k/ub.test
[hadoop@master zeppelin]$ pwd /home/hadoop/data/zeppelin [hadoop@master zeppelin]$ ll total 4816 drwxr-x--- 2 hadoop hadoop 4096 Jan 30 2016 ml-100k -rw-rw-r-- 1 hadoop hadoop 4924029 Sep 2 11:00 ml-100k.zip [hadoop@master zeppelin]$ rm ml-100k.zip [hadoop@master zeppelin]$
得到
列出ml-100k文件列表
然后,在ml-100k Notebook新的段落中輸入命令,如下
%sh
ls -l /home/hadoop/data/zeppelin/ml-100k
Zeppelin支持shell命令,就好像在終端輸入命令一樣。要輸入shell命令,先輸入%sh。
按Enter鍵后再輸入命令。%sh主要功能是告訴Zeppelin的解釋器(Interpreter),后續要輸入的是shell命令。
也許,有些博友,會出現如下的錯誤
查看u.user
%sh
head /home/hadoop/data/zeppelin/ml-100k/u.user
運行后會顯示u.user數據。字段是序號、年齡、職業、郵政編碼。
也有博友可能,會出現這個問題