1、啟動spark

（1）SparkSession 是 Spark SQL 的入口。

（2）通過 SparkSession.builder 來創建一個 SparkSession 的實例,並通過 stop 函數來停止 SparkSession。

Builder 是 SparkSession 的構造器。通過 Builder, 可以添加各種配置。

（3）在 SparkSession 的內部，包含了SparkContext， SharedState，SessionState 幾個對象。

2、建立RDD：

創建RDD的兩種方法：
1 讀取一個數據集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 讀取一個集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))

3、從text中讀取，read.text

4、從csv中讀取:read.csv

5、從json中讀取：read.json

7、RDD與Dataframe的轉換

（1）dataframe轉換成rdd：

法一：datardd = dataDataframe.rdd

法二：datardd = sc.parallelize(_)

（2）rdd轉換成dataframe：

dataDataFrame = spark.createDataFrame(datardd)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pyspark學習系列（二）讀取CSV文件為RDD或者DataFrame進行數據處理 pyspark 讀取本txt 構建RDD pyspark——Rdd與DataFrame相互轉換 pyspark創建RDD數據、RDD轉DataFrame以及保存 [Spark][pyspark]cache persist checkpoint 對RDD與DataFrame的使用記錄 Pyspark讀取csv文件 pyspark 讀取csv文件創建DataFrame的兩種方法 pyspark之從HDFS上讀取文件、從本地讀取文件 pyspark的RDD代碼紀錄 pyspark讀取textfile形成DataFrame以及查詢表的屬性信息