一、阿里雲大數據平台
1.阿里雲大數據與Hodoop生態的產品映射
2.阿里雲產品構建離線數據倉庫
3.阿里雲大數據產品實時流處理
4.阿里雲產品構建應用系統
5.阿里雲產品構建海量營銷數據分析系統
6.應用案例-XX典型數據分析系統
二、大數據計算服務MaxCompute簡介
1.MaxCompute的技術特點
2.MaxCompute的產品優勢
3.MaxCompute的功能概述
4.MaxCompute與其他雲產品配合使用
5.使用場景
■基於SQL構建大規模數據倉庫系統和BI系統
■基於DAG/Graph構建大型分布式應用系統
■基於統計和機器學習的大數據統計和數據挖掘
6.MaxCompute基本概念
7.MaxCompute的ACID特性
8.MaxCompute架構圖
9.邏輯層組件
10.任務、作業、作業實例
11.元數據存儲
三、數據上傳與下載
1.MaxCompute數據同步概述
2.阿里雲數據同步工具
3.Tunnel概述
4.上傳命令 upload
5.下載命令 download
6.其他命令
7.常用參數
8.Tunnel命令是對tunnel模塊的SDK的封裝,具有tunnel的一些特點:
■支持對表的讀寫,不支持視圖
■寫表是追加(Append)模式
■采用並發以提高整體吞吐量
■避免頻繁提交
■目標分區必須存在
四、Tunnel SDK
1.Tunnel SDK 概念
2.主要接口
3.TableTunnel接口定義
4.InstanceTunnel接口定義及約束
5.UploadSession接口說明
6.DownloadSession接口定義
7.TunnelBufferedWriter接口定義
8.Java + eclipse環境配置
9.簡單上傳實例
10.簡單下載實例
11.多線程上傳實例
12.多線程下載實例
五、DataHub概述
六、Maxcompute SQL
1.MaxCompute SQL與MySQL的語法差異
2.數據的組織
3.MaxCompute數據類型
4.MaxCompute SQL的DDL語句
表操作-創建/刪除
快捷建表操作CTAS
生命周期Lifecycle
分區操作Partition
修改表屬性Alter Table
視圖操作VIEW
創建外部表訪問非結構化數據
示例:內置extractor讀取OSS數據
5.MaxCompute SQL的DML語句
查詢操作(SELECT)
更新表中數據INSERT OVERWRITE/INTO
更新表中數據VALUES
多路輸出MULTI INSERT
示例
並集(聯合) -UNION
交集-INTERSECT
補集- EXCEPT
交集、並集、補集注意事項
SEMI/ANTI JOIN (半連接)
MAPJOIN HINT
分支表達式CASE WHEN
CTE操作
GROUPING SETS
復制表數據CLONE TABLE
數據導入LOAD
壓縮表中數據
清空表中數據
參數化視圖
6.MaxCompute SQL 內置函數
內置函數