一、安裝
在IDEA中File > Settings > Plugins中Browse repositories搜索安裝即可:MaxCompute Studio
二、開發UDF、UDAF、UDTF
//開發SQL腳本等暫不贅述,推薦DataWorks
1.創建module(project)
file->new->project,類型選擇Maxcomputer java
項目建成后目錄簡要說明:
1.src:源碼
2.example:示例,可參考
3.warehouse:本地運行時存放示例數據等
2.開發調試UDF/UDTF/UDAF
maven的依賴等由插件完成,直接在src->main->java中新建,new->maxcomputer java,kind選擇對應的UDF類型即可!
3.調試UDF/UDTF/UDAF
測試數據在warehouse中,其中schema存放元數據,data存放數據,例如:
數據:
注意:
warehouse目錄下依次是項目名,tables,表名,表schema和sample data。 schema文件依次配置項目名,表名,以及列名和類型(冒號分隔),分區表還需配置分區列(非分區表參考wc_in1,分區表參考wc_in2)。 data文件采用標准csv格式存儲表的sample數據: 特殊字符為逗號,雙引號和換行(\n或\r\n) 列分隔符為逗號,行分隔符為\n或\r\n 如果列內容里包含特殊字符,需要在該列內容前后加上雙引號,例如:3,No -> “3, No” 如果列內容包含雙引號,則每個雙引號轉義成兩個雙引號,例如:a”b”c -> “a””b””c” \N表示該列為null,如果該列內容(string 類型)就是\N,需要轉換為 “””\N””” 文件字符編碼為UTF-8
運行設置:
右擊UDF類,單擊運行,彈出run configuration對話框,設置輸入表與字段等
#注意:
插件會有本身的很多測試代碼,直接打包可能會報錯,我們可以直接在terminal運行跳過測試的打包命令:
1. mvn clean 清理上次生成的 2. mvn package -Dmaven.test.skip=true
#python版本敬請期待!