val fake_data=hivecontext.read .format("com.databricks.spark.csv") .option("header","true") //這里如果在csv第一行有屬性的話,沒有就是"false" .option("inferSchema",true.toString)//這是自動推斷屬性列的數據類型。 .option("delimiter", ",") .load("file:///C:\\Users\\csv\\fix_price.csv")//文件的路徑 import org.apache.spark.sql.functions.regexp_extract fake_data.show() val data =fake_data.select(regexp_extract(fake_data("gid"),"^\\d{2}",0).alias("gid")) data.show(10)
spark的正則表達式匹配暫時只找到一個可用於dataframe處理數據的函數
————————————————
原文鏈接:https://blog.csdn.net/qingumeng4466/article/details/78932970
