Avro介紹

Apache Avro是一個數據序列化系統。

Avro所提供的屬性：

1.豐富的數據結構
2.使用快速的壓縮二進制數據格式
3.提供容器文件用於持久化數據
4.遠程過程調用RPC
5.簡單的動態語言結合功能，Avro 和動態語言結合后，讀寫數據文件和使用 RPC 協議都不需要生成代碼，而代碼生成作為一種可選的優化只值得在靜態類型語言中實現。

Avro的Schema

Avro的Schema用JSON表示。Schema定義了簡單數據類型和復雜數據類型。

基本類型

其中簡單數據類型有以下8種：

類型	含義
null	沒有值
boolean	布爾值
int	32位有符號整數
long	64位有符號整數
float	單精度（32位）的IEEE 754浮點數
double	雙精度（64位）的IEEE 754浮點數
bytes	8位無符號字節序列
string	字符串

基本類型沒有屬性，基本類型的名字也就是類型的名字，比如：

{"type": "string"}

復雜類型

Avro提供了6種復雜類型。分別是Record，Enum，Array，Map，Union和Fixed。

Record

Record類型使用的類型名字是 “record”，還支持其它屬性的設置：

name：record類型的名字(必填)

namespace：命名空間(可選)

doc：這個類型的文檔說明(可選)

aliases：record類型的別名，是個字符串數組(可選)

fields：record類型中的字段，是個對象數組(必填)。每個字段需要以下屬性：

name：字段名字(必填)
doc：字段說明文檔(可選)
type：一個schema的json對象或者一個類型名字(必填)
default：默認值(可選)
order：排序(可選)，只有3個值ascending(默認)，descending或ignore
aliases：別名，字符串數組(可選)

一個Record類型例子，定義一個元素類型是Long的鏈表：

{
  "type": "record", 
  "name": "LongList",
  "aliases": ["LinkedLongs"],                      // old name for this
  "fields" : [
    {"name": "value", "type": "long"},             // each element has a long
    {"name": "next", "type": ["null", "LongList"]} // optional next element
  ]
}

Enum

枚舉類型的類型名字是”enum”，還支持其它屬性的設置：

name：枚舉類型的名字(必填)
namespace：命名空間(可選)
aliases：字符串數組，別名(可選)
doc：說明文檔(可選)
symbols：字符串數組，所有的枚舉值(必填)，不允許重復數據。

一個枚舉類型的例子：

{ "type": "enum",
  "name": "Suit",
  "symbols" : ["SPADES", "HEARTS", "DIAMONDS", "CLUBS"]
}

Array

數組類型的類型名字是”array”並且只支持一個屬性：

items：數組元素的schema

一個數組例子：

{"type": "array", "items": "string"}

Map

Map類型的類型名字是”map”並且只支持一個屬性：

values：map值的schema

Map的key必須是字符串。

一個Map例子：

{"type": "map", "values": "long"}

Union

組合類型，表示各種類型的組合，使用數組進行組合。比如[“null”, “string”]表示類型可以為null或者string。

組合類型的默認值是看組合類型的第一個元素，因此如果一個組合類型包括null類型，那么null類型一般都會放在第一個位置，這樣子的話這個組合類型的默認值就是null。

組合類型中不允許同一種類型的元素的個數不會超過1個，除了record，fixed和enum。比如組合類中有2個array類型或者2個map類型，這是不允許的。

組合類型不允許嵌套組合類型。

Fixed

混合類型的類型名字是fixed，支持以下屬性：

name：名字(必填)
namespace：命名空間(可選)
aliases：字符串數組，別名(可選)
size：一個整數，表示每個值的字節數(必填)

比如16個字節數的fixed類型例子如下：

{"type": "fixed", "size": 16, "name": "md5"}

1個Avro例子

首先定義一個User的schema：

{
"namespace": "example.avro",
 "type": "record",
 "name": "User",
 "fields": [
     {"name": "name", "type": "string"},
     {"name": "favorite_number",  "type": "int"},
     {"name": "favorite_color", "type": "string"}
 ]
}

User有3個屬性，分別是name，favorite_number和favorite_color。

json文件內容：

{"name":"format","favorite_number":1,"favorite_color":"red"}
{"name":"format2","favorite_number":2,"favorite_color":"black"}
{"name":"format3","favorite_number":666,"favorite_color":"blue"}

使用avro工具將json文件轉換成avro文件：

java -jar avro-tools-1.8.0.jar fromjson --schema-file user.avsc user.json > user.avro

可以設置壓縮格式：

java -jar avro-tools-1.8.0.jar fromjson --codec snappy --schema-file user.avsc user.json > user2.avro

將avro文件反轉換成json文件：

java -jar avro-tools-1.8.0.jar tojson user.avro
java -jar avro-tools-1.8.0.jar --pretty tojson user.avro

得到avro文件的meta：

java -jar avro-tools-1.8.0.jar getmeta user.avro

輸出：

avro.codec    null
avro.schema    {"type":"record","name":"User","namespace":"example.avro","fields":[{"name":"name","type":"string"},{"name":"favorite_number","type":"int"},{"name":"favorite_color","type":"string"}]}

得到avro文件的schema：

java -jar avro-tools-1.8.0.jar getschema user.avro

將文本文件轉換成avro文件：

java -jar avro-tools-1.8.0.jar fromtext user.txt usertxt.avro

Avro使用生成的代碼進行序列化和反序列化

以上面一個例子的schema為例講解。

Avro可以根據schema自動生成對應的類：

java -jar /path/to/avro-tools-1.8.0.jar compile schema user.avsc .

user.avsc的namespace為example.avro，name為User。最終在當前目錄生成的example/avro目錄下有個User.java文件。

├── example
│   └── avro
│       └── User.java

使用Avro生成的代碼創建User：

User user1 = new User();
user1.setName("Format");
user1.setFavoriteColor("red");
user1.setFavoriteNumber(666);

User user2 = new User("Format2", 66, "blue");

User user3 = User.newBuilder()
                .setName("Format3")
                .setFavoriteNumber(6)
                .setFavoriteColor("black").build();

可以使用有參的構造函數和無參的構造函數，也可以使用Builder構造User。

序列化：

DatumWrite接口用來把java對象轉換成內存中的序列化格式，SpecificDatumWriter用來生成類並且指定生成的類型。

最后使用DataFileWriter來進行具體的序列化，create方法指定文件和schema信息，append方法用來寫數據，最后寫完后close文件。

DatumWriter<User> userDatumWriter = new SpecificDatumWriter<User>(User.class);
        DataFileWriter<User> dataFileWriter = new DataFileWriter<User>(userDatumWriter);
dataFileWriter.create(user1.getSchema(), new File("users.avro"));
dataFileWriter.append(user1);
dataFileWriter.append(user2);
dataFileWriter.append(user3);
dataFileWriter.close();

反序列化：

反序列化跟序列化很像，相應的Writer換成Reader。這里只創建一個User對象是為了性能優化，每次都重用這個User對象，如果文件量很大，對象分配和垃圾收集處理的代價很昂貴。如果不考慮性能，可以使用 for (User user : dataFileReader) 循環遍歷對象

File file = new File("users.avro");
DatumReader<User> userDatumReader = new SpecificDatumReader<User>(User.class);
DataFileReader<User> dataFileReader = new DataFileReader<User>(file, userDatumReader);
User user = null;
while(dataFileReader.hasNext()) {
    user = dataFileReader.next(user);
    System.out.println(user);
}

打印出：

{"name": "Format", "favorite_number": 666, "favorite_color": "red"}
{"name": "Format2", "favorite_number": 66, "favorite_color": "blue"}
{"name": "Format3", "favorite_number": 6, "favorite_color": "black"}

Avro不使用生成的代碼進行序列化和反序列化

雖然Avro為我們提供了根據schema自動生成類的方法，我們也可以自己創建類，不使用Avro的自動生成工具。

創建User：

首先使用Parser讀取schema信息並且創建Schema類：

Schema schema = new Schema.Parser().parse(new File("user.avsc"));

有了Schema之后可以創建record：

GenericRecord user1 = new GenericData.Record(schema);
user1.put("name", "Format");
user1.put("favorite_number", 666);
user1.put("favorite_color", "red");

GenericRecord user2 = new GenericData.Record(schema);
user2.put("name", "Format2");
user2.put("favorite_number", 66);
user2.put("favorite_color", "blue");

使用GenericRecord表示User，GenericRecord會根據schema驗證字段是否正確，如果put進了不存在的字段 user1.put(“favorite_animal”, “cat”) ，那么運行的時候會得到AvroRuntimeException異常。

序列化：

序列化跟生成的User類似，只不過schema是自己構造的，不是User中拿的。

Schema schema = new Schema.Parser().parse(new File("user.avsc"));
GenericRecord user1 = new GenericData.Record(schema);
user1.put("name", "Format");
user1.put("favorite_number", 666);
user1.put("favorite_color", "red");

GenericRecord user2 = new GenericData.Record(schema);
user2.put("name", "Format2");
user2.put("favorite_number", 66);
user2.put("favorite_color", "blue");

DatumWriter<GenericRecord> datumWriter = new SpecificDatumWriter<GenericRecord>(schema);
DataFileWriter<GenericRecord> dataFileWriter = new DataFileWriter<GenericRecord>(datumWriter);
dataFileWriter.create(schema, new File("users2.avro"));
dataFileWriter.append(user1);
dataFileWriter.append(user2);
dataFileWriter.close();

反序列化：

反序列化跟生成的User類似，只不過schema是自己構造的，不是User中拿的。

Schema schema = new Schema.Parser().parse(new File("user.avsc"));
File file = new File("users2.avro");
DatumReader<GenericRecord> datumReader = new SpecificDatumReader<GenericRecord>(schema);
DataFileReader<GenericRecord> dataFileReader = new DataFileReader<GenericRecord>(file, datumReader);
GenericRecord user = null;
while(dataFileReader.hasNext()) {
    user = dataFileReader.next(user);
    System.out.println(user);
}

打印出：

{"name": "Format", "favorite_number": 666, "favorite_color": "red"}
{"name": "Format2", "favorite_number": 66, "favorite_color": "blue"}

一些注意點

Avro解析json文件的時候，如果類型是Record並且里面有字段是union並且允許空值的話，需要進行轉換。因為[“bytes”, “string”]和[“int”,”long”]這2個union類型在json中是有歧義的，第一個union在json中都會被轉換成string類型，第二個union在json中都會被轉換成數字類型。

所以如果json值的null的話，在avro提供的json中直接寫null，否則使用只有一個鍵值對的對象，鍵是類型，值的具體的值。

比如：

{
"namespace": "example.avro",
 "type": "record",
 "name": "User",
 "fields": [
     {"name": "name", "type": "string"},
     {"name": "favorite_number",  "type": ["int","null"]},
     {"name": "favorite_color", "type": ["string","null"]}
 ]
}

在要轉換成json文件的時候要寫成這樣：

{"name":"format","favorite_number":{"int":1},"favorite_color":{"string":"red"}}
{"name":"format2","favorite_number":null,"favorite_color":{"string":"black"}}
{"name":"format3","favorite_number":{"int":66},"favorite_color":null}

Spark讀取Avro文件

直接遍歷avro文件，得到GenericRecord進行處理：

val conf = new SparkConf().setMaster("local").setAppName("AvroTest")

val sc = new SparkContext(conf)

val rdd = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](this.getClass.getResource("/").toString + "users.avro")

val nameRdd = rdd.map(s => s._1.datum().get("name").toString)

nameRdd.collect().foreach(println)

使用Avro需要注意的地方

筆者使用Avro的時候暫時遇到了下面2個坑。先記錄一下，以后遇到新的坑會更新這篇文章。

1.如果定義了unions類型的字段，而且unions中有null選項的schema，比如如下schema：

{
"namespace": "example.avro",
 "type": "record",
 "name": "User2",
 "fields": [
     {"name": "name", "type": "string"},
     {"name": "favorite_number",  "type": ["null","int"]},
     {"name": "favorite_color", "type": ["null","string"]}
 ]
}

這樣的schema，如果不使用Avro自動生成的model代碼進行insert，並且insert中的model數據有null數據的話。然后用spark讀avro文件的話，會報org.apache.avro.AvroTypeException: Found null, expecting int … 這樣的錯誤。

這一點很奇怪，但是使用Avro生成的Model進行insert的話，sprak讀取就沒有任何問題。很困惑。

2.如果使用了Map類型的字段，avro生成的model中的Map的Key默認類型為CharSequence。這種model我們insert數據的話，用String是沒有問題的。但是spark讀取之后要根據Key拿這個Map數據的時候，永遠得到的是null。

stackoverflow上有一個頁面說到了這個問題。http://stackoverflow.com/questions/19728853/apache-avro-map-uses-charsequence-as-key

需要在map類型的字段里加上”avro.java.string”: “String”這個選項, 然后compile的時候使用-string參數即可。

比如以下這個schema：

{
"namespace": "example.avro",
 "type": "record",
 "name": "User3",
 "fields": [
     {"name": "name", "type": "string"},
     {"name": "favorite_number",  "type": ["null","int"]},
     {"name": "favorite_color", "type": ["null","string"]},
     {"name": "scores", "type": ["null", {"type": "map", "values": "string", "avro.java.string": "String"}]}
 ]
}