spark dataframe 正則表達式匹配


val fake_data=hivecontext.read
.format("com.databricks.spark.csv")
.option("header","true") //這里如果在csv第一行有屬性的話,沒有就是"false"
.option("inferSchema",true.toString)//這是自動推斷屬性列的數據類型。
.option("delimiter", ",")
.load("file:///C:\\Users\\csv\\fix_price.csv")//文件的路徑
import org.apache.spark.sql.functions.regexp_extract
fake_data.show()
val data =fake_data.select(regexp_extract(fake_data("gid"),"^\\d{2}",0).alias("gid"))
data.show(10)

spark的正則表達式匹配暫時只找到一個可用於dataframe處理數據的函數

————————————————
原文鏈接:https://blog.csdn.net/qingumeng4466/article/details/78932970


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM