spark入門系列教程三——spark sql(一)


Spark SQL是用於結構化數據處理的Spark模塊,可以通過sql、dataset、dataframe與spark sql進行交互。更多理論性知識請移步官網http://spark.apache.org/docs/2.3.1/sql-programming-guide.html

在spark 2.0以前,多使用SqlContext進行開發,2.0以后,推薦使用SparkSession,本文將以SqlContext寫一個簡單的例子,在后面的博文中,會寫spark session相關的博文,並會詳細說明二者之間的差別。

接着上一篇的工程,繼續開發學習。

1.准備

1.1添加maven依賴

在pom文件中添加如下依賴:

1.2准備數據

新建一個txt文件,加入以下數據

如果有hdfs集群,可以將數據push到hdfs集群

 

 

2.編碼

 新建scala object SparkSqlDemo1,加入如下代碼:

 

運行結果:

完整代碼已上傳至github  https://github.com/wuyueming985/sparkdemos

感謝閱讀!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM