別人的相關代碼文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark
1、啟動spark
(1)SparkSession 是 Spark SQL 的入口。
(2)通過 SparkSession.builder 來創建一個 SparkSession 的實例,並通過 stop 函數來停止 SparkSession。
Builder 是 SparkSession 的構造器。 通過 Builder, 可以添加各種配置。
(3)在 SparkSession 的內部, 包含了SparkContext, SharedState,SessionState 幾個對象。
2、建立RDD:
創建RDD的兩種方法:
1 讀取一個數據集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 讀取一個集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))
3、從text中讀取,read.text
4、從csv中讀取:read.csv
5、從json中讀取:read.json
7、RDD與Dataframe的轉換
(1)dataframe轉換成rdd:
法一:datardd = dataDataframe.rdd
法二:datardd = sc.parallelize(_)
(2)rdd轉換成dataframe:
dataDataFrame = spark.createDataFrame(datardd)