pyspark的用法


pyspark -h 查看用法

pyspark -h

Usage: pyspark [options]

常見的[options] 如下表:

輸入pyspark -h 查看各參數的定義

查看sc變量

  • 不指定--master時

      pyspark
      (查看sc變量)
      sc
    

  • 指定--master時

      pyspark --master spark://node1:7077
      (查看sc變量)
      sc
    

用pyspark開發一個WordCount程序

輸入下面的代碼並運行(路徑根據情況修改)。

  • 在本地創建一個文件:/home/hadoop/252/input/data.txt (hadoop是本地用戶名,252表示文件名,兩個值請根據情況修改)。此路徑也可以換為hdfs的路徑。

    data.txt文件中的內容是:

      a good beginning is half the battle
    
      where there is a will there is a way
    
  • 一行代碼實現WordCount

      sc.textFile("/home/hadoop/252/input/data.txt").flatMap(lambda line: line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y).saveAsTextFile("/home/hadoop/252/output/0222")
    

  • 多行代碼實現WordCount(單步)

      rdd1 = sc.textFile("/home/hadop/252/input/data.txt")  #延時讀取數據
      rdd1.collect()  #查看結果(列表方式)
    

rdd2 = rdd1.flatMap(lambda line: line.split(" "))  #將每句話進行分詞,再整合到一個列表
rdd2.collect()  #查看結果(列表方式)

rdd3 = rdd2.map(lambda word : (word,1))  #每個單詞記一次數,將單詞和1構成元組
rdd3.collect()  #查看結果(列表方式)

rdd4 = rdd3.reduceByKey(lambda x,y:x+y)  #再將value進行累加,把相同的Key的value進行累加
rdd4.collect()  #查看結果(列表方式)

rdd4.saveAsTextFile("/home/hadoop/252/output/0333")  #保存到指定目錄,此目錄預先不能存在

最后,輸出查看目錄中的內容


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM