(2)pyspark建立RDD以及讀取文件成dataframe


別人的相關代碼文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark

1、啟動spark

(1)SparkSession 是 Spark SQL 的入口。

(2)通過 SparkSession.builder 來創建一個 SparkSession 的實例,並通過 stop 函數來停止 SparkSession。

Builder 是 SparkSession 的構造器。 通過 Builder, 可以添加各種配置。

(3)在 SparkSession 的內部, 包含了SparkContext, SharedState,SessionState 幾個對象。

 

2、建立RDD:

創建RDD的兩種方法:
1 讀取一個數據集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 讀取一個集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))


3、從text中讀取,read.text

4、從csv中讀取:read.csv

5、從json中讀取:read.json


7、RDD與Dataframe的轉換 

(1)dataframe轉換成rdd:

法一:datardd = dataDataframe.rdd

法二:datardd = sc.parallelize(_)

(2)rdd轉換成dataframe:

dataDataFrame = spark.createDataFrame(datardd)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM