pyspark -h 查看用法
pyspark -h
Usage: pyspark [options]
常見的[options] 如下表:
輸入pyspark -h 查看各參數的定義
查看sc變量
-
不指定--master時
pyspark (查看sc變量) sc
-
指定--master時
pyspark --master spark://node1:7077 (查看sc變量) sc
用pyspark開發一個WordCount程序
輸入下面的代碼並運行(路徑根據情況修改)。
-
在本地創建一個文件:/home/hadoop/252/input/data.txt (hadoop是本地用戶名,252表示文件名,兩個值請根據情況修改)。此路徑也可以換為hdfs的路徑。
data.txt文件中的內容是:
a good beginning is half the battle where there is a will there is a way
-
一行代碼實現WordCount
sc.textFile("/home/hadoop/252/input/data.txt").flatMap(lambda line: line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y).saveAsTextFile("/home/hadoop/252/output/0222")
-
多行代碼實現WordCount(單步)
rdd1 = sc.textFile("/home/hadop/252/input/data.txt") #延時讀取數據 rdd1.collect() #查看結果(列表方式)
rdd2 = rdd1.flatMap(lambda line: line.split(" ")) #將每句話進行分詞,再整合到一個列表
rdd2.collect() #查看結果(列表方式)
rdd3 = rdd2.map(lambda word : (word,1)) #每個單詞記一次數,將單詞和1構成元組
rdd3.collect() #查看結果(列表方式)
rdd4 = rdd3.reduceByKey(lambda x,y:x+y) #再將value進行累加,把相同的Key的value進行累加
rdd4.collect() #查看結果(列表方式)
rdd4.saveAsTextFile("/home/hadoop/252/output/0333") #保存到指定目錄,此目錄預先不能存在
最后,輸出查看目錄中的內容