Spark 序列化問題

本文轉載自查看原文 2018-02-25 11:42 3500 spark

在Spark應用開發中，很容易出現如下報錯：

org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304) at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:294) at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:122) at org.apache.spark.SparkContext.clean(SparkContext.scala:2058) ... Caused by: java.io.NotSerializableException

該報錯意思是用戶代碼的transformation操作中包含不可序列化的對象引用。

本文主要從以下三個方面解釋Spark 應用中序列化問題。
1、Java序列化含義？
2、Spark代碼為什么需要序列化？
3、如何解決Spark序列化問題？

1、Java序列化含義？

Spark是基於JVM運行的進行，其序列化必然遵守Java的序列化規則。

序列化就是指將一個對象轉化為二進制的byte流（注意，不是bit流），然后以文件的方式進行保存或通過網絡傳輸，等待被反序列化讀取出來。序列化常被用於數據存取和通信過程中。

對於java應用實現序列化一般方法：

class實現序列化操作是讓class 實現Serializable接口，但實現該接口不保證該class一定可以序列化，因為序列化必須保證該class引用的所有屬性可以序列化。
這里需要明白，static和transient修飾的變量不會被序列化，這也是解決序列化問題的方法之一，讓不能序列化的引用用static和transient來修飾。（static修飾的是類的狀態，而不是對象狀態，所以不存在序列化問題。transient修飾的變量，是不會被序列化到文件中，在被反序列化后，transient變量的值被設為初始值，如int是0，對象是null）
此外還可以實現readObject()方法和writeObject()方法來自定義實現序列化。（具體用例見參考鏈接）

2、Spark的transformation操作為什么需要序列化？

Spark是分布式執行引擎，其核心抽象是彈性分布式數據集RDD，其代表了分布在不同節點的數據。Spark的計算是在executor上分布式執行的，故用戶開發的關於RDD的map，flatMap，reduceByKey等transformation 操作（閉包）有如下執行過程：
1. 代碼中對象在driver本地序列化
2. 對象序列化后傳輸到遠程executor節點
3. 遠程executor節點反序列化對象
4. 最終遠程節點執行
故對象在執行中需要序列化通過網絡傳輸，則必須經過序列化過程。

3、如何解決Spark序列化問題？

如果出現NotSerializableException報錯，可以在spark-default.xml文件中加入如下參數來開啟SerializationDebugger功能類，從而可以在日志中打印出序列化出問題的類和屬性信息。

spark.executor.extraJavaOptions -Dsun.io.serialization.extendedDebugInfo=true spark.driver.extraJavaOption -Dsun.io.serialization.extendedDebugInfo=true

對於scala語言開發，解決序列化問題主要如下幾點：

在Object中聲明對象（每個class對應有一個Object）
如果在閉包中使用SparkContext或者SqlContext，建議使用SparkContext.get() and SQLContext.getActiveOrCreate()
使用static或transient修飾不可序列化的屬性從而避免序列化。
注：scala語言中，class的Object

對於java語言開發，對於不可序列化對象，如果本身不需要存儲或傳輸，則可使用static或trarnsient修飾；如果需要存儲傳輸，則實現writeObject()/readObject()使用自定義序列化方法。

此外注意

對於Spark Streaming作業，注意哪些操作在driver，哪些操作在executor。因為在driver端（foreachRDD）實例化的對象，很可能不能在foreach中運行，因為對象不能從driver序列化傳遞到executor端（有些對象有TCP鏈接，一定不可以序列化）。所以這里一般在foreachPartitions或foreach算子中來實例化對象，這樣對象在executor端實例化，沒有從driver傳輸到executor的過程。

dstream.foreachRDD { rdd =>
  val where1 = "on the driver" rdd.foreach { record => val where2 = "on different executors" } } }

參考資料：
Avoid NotSerializable Error in Spark Job
spark not serializable problem
Spark Streaming / Tips on Running Streaming Apps inside Databricks
Java 序列化的高級認識
 什么是writeObject 和readObject？可定制的序列化過程

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark（9）spark程序的序列化問題及解決方法 [spark] 序列化錯誤 object not serializable TreeSet序列化問題 Spark設置Kryo序列化緩沖區大小 spark性能調優之四：kryo序列化 spark出現task不能序列化錯誤的解決方法關於Django的序列化問題。serializers 【JAVASCRIPT】表單序列化問題 Redis 多項目序列化問題 Hessian序列化的一個潛在問題