目錄
基本信息
網絡拓撲
需要交換機、防火牆確保網絡安全;
前置機原則上需要在網絡邊界處放置一台(專網可以不需要前置機),可用於大數據量做緩沖,也可用於進行網絡安全隔離
兩種模式簡介
1 抽取模式(從業務方拉):
- 優點:技術實現簡單 / 成本低,無需額外費用;
- 缺點:對源系統容易造成性能問題 / 源系統數據結構發生變化容易出錯同步失敗 / 源系統對數據質量不負責
2 供數模式(由業務方推):
- 優點:對源系統無侵入 / 數據質量可以推給業務端;
- 缺點:需要額外第三方接口費 / 對接技術實現上相對復雜
1 抽取模式的三種具體方案
1.1 抽取模式——WebService接口
業務系統——接口 <- 接入節點——大數據平台
- 優點:數據接入時間點和速度可控 / 業務端可控制數據范圍和數據加密;
- 缺點:批量走接口可能導致業務系統不穩定;
- 適用場景:小批量結構化數據;
- 不適用場景:大批量非結構化數據 / 實時數據同步
1.2 抽取模式——直連數據庫備庫的方式
業務系統——數據庫備庫 <- 接入節點——大數據平台
- 優點:業務系統提供備庫,對業務無影響;
- 缺點:部分場景下業務沒有備庫 / 數據加密由平台側保障;
- 適用場景:小批量結構化數據;
- 不適用場景:大批量非結構化數據 / 實時數據同步
1.3 抽取模式——文件同步
業務系統——文件地址 <- 接入節點——大數據平台
- 優點:業務系統無感知;
- 缺點:批量拉對網絡波動影響;
- 適用場景:非結構化數據
2 供數模式的四種具體方案
2.1 供數模式——API接口
業務系統——接口 -> 接入節點——大數據平台
- 優點:業務系統無感知少風險;
- 缺點:對平台側接口性能要求較高 / 需要支付接口開發費用;
- 適用場景:小批量結構化數據 / 實時數據同步;
- 不適用場景:大批量非結構化數據
2.2 供數模式——數據庫同步
業務系統——數據庫主庫 -> 數據庫備庫——接入節點——大數據平台
- 優點:業務系統無感知;
- 缺點:需要額外接口費;
- 適用場景:小批量結構化數據 / 實時數據同步;
- 不適用場景:大批量非結構化數據
2.3 供數模式——(壓縮)文件同步
業務系統 -> FTP服務器——接入節點——大數據平台
- 優點:業務系統無感知;
- 缺點:需要額外接口費;
- 適用場景:非實時數據同步;
- 不適用場景:實時數據同步
2.4 供數模式——實時同步
業務系統 -> 消息隊列(kafka)——接入節點——大數據平台
- 優點:實時處理數據;
- 缺點:需要額外接口費;
- 適用場景:實時數據同步;
- 不適用場景:非結構化數據