pyspark -h 查看用法

pyspark -h

Usage: pyspark [options]

常見的[options] 如下表：

輸入pyspark -h 查看各參數的定義

查看sc變量

不指定--master時
```
  pyspark
  (查看sc變量)
  sc
```

指定--master時

  pyspark --master spark://node1:7077
  (查看sc變量)
  sc

用pyspark開發一個WordCount程序

輸入下面的代碼並運行（路徑根據情況修改）。

在本地創建一個文件：/home/hadoop/252/input/data.txt (hadoop是本地用戶名，252表示文件名，兩個值請根據情況修改)。此路徑也可以換為hdfs的路徑。

data.txt文件中的內容是：
```
  a good beginning is half the battle

  where there is a will there is a way
```

一行代碼實現WordCount

  sc.textFile("/home/hadoop/252/input/data.txt").flatMap(lambda line: line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y).saveAsTextFile("/home/hadoop/252/output/0222")

多行代碼實現WordCount（單步）

  rdd1 = sc.textFile("/home/hadop/252/input/data.txt")  #延時讀取數據
  rdd1.collect()  #查看結果(列表方式)

rdd2 = rdd1.flatMap(lambda line: line.split(" "))  #將每句話進行分詞，再整合到一個列表
rdd2.collect()  #查看結果(列表方式)

rdd3 = rdd2.map(lambda word : (word,1))  #每個單詞記一次數，將單詞和1構成元組
rdd3.collect()  #查看結果(列表方式)

rdd4 = rdd3.reduceByKey(lambda x,y:x+y)  #再將value進行累加，把相同的Key的value進行累加
rdd4.collect()  #查看結果(列表方式)

rdd4.saveAsTextFile("/home/hadoop/252/output/0333")  #保存到指定目錄，此目錄預先不能存在

最后，輸出查看目錄中的內容

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pyspark 簡單用法 pyspark dataframe簡單用法 Pyspark筆記一 pyspark讀取elasticsearch 設置PySpark的Python版本 pyspark設置python的版本 pyspark使用小結 pyspark 通過list 構建rdd pyspark 內容介紹（一） sparksql---通過pyspark實現