Spark的序列化

本文转载自查看原文 2015-07-01 17:51 1987 大数据相关

spark的序列化主要使用了hadoop的writable和java的Serializable。

说到底就是使用hadoop的writable替换了java的默认序列化实现方式。

class SerializableWritable[T <: Writable](@transient var t: T) extends Serializable {

  def value: T = t override def toString: String = t.toString private def writeObject(out: ObjectOutputStream): Unit = Utils.tryOrIOException { out.defaultWriteObject() new ObjectWritable(t).write(out) } private def readObject(in: ObjectInputStream): Unit = Utils.tryOrIOException { in.defaultReadObject() val ow = new ObjectWritable() ow.setConf(new Configuration()) ow.readFields(in) t = ow.get().asInstanceOf[T] } }

这个有个让人疑惑的地方是使用@transient 表示该值不会被序列化,我做个一个测试是可以的，为什么呢，因为spark这里定制了java的序列化，使用hadoop的序列化方案，同时t是Writable类型没有实现Serializable接口不能被序列化。

object SerializableWritableTest extends App
{
  println("start")
  val name:Text=new Text("gaoxing");
  val s=new SerializableWritable[Text](name);
  val fout=new FileOutputStream("name.dat");
  val  out=new ObjectOutputStream(fout);
  out.writeObject(s)

  val fin=new FileInputStream("name.dat");
  val in=new ObjectInputStream(fin);
  val n=in.readObject()
  println(n.asInstanceOf[SerializableWritable[Text]].value.toString)
  println("end")
}

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark 序列化问题在Spark中使用Kryo序列化【Spark调优】Kryo序列化 Spark优化之三：Kryo序列化 [spark] 序列化错误 object not serializable Spark 学习（六） Spark 的线程安全和序列化问题 spark（9）spark程序的序列化问题及解决方法 5，Spark中文件格式、压缩和序列化 Spark未序列化问题(Task not Serialize) Spark设置Kryo序列化缓冲区大小