Scheduled SQL： SLS 大規模日志上的全局分析與調度

本文轉載自查看原文 2021-06-10 14:37 207

簡介： 本文總結了大規模日志全局分析的需求，討論SLS上現有的典型分析方案，並延伸到 SLS 原生數據處理方案，介紹 Schedueld SQL 功能與最佳實踐。

大規模日志全局分析的需求

數據大規模與時效性

基於時間的數據（日志、指標）在日積月累后的數量是驚人的。以 SLB 七層訪問日志為例，每一個HTTP/HTTPS 訪問請求會記錄一條 access log，假設每天產生1000萬條數據，則一年為36億條數據。一方面，長時間的數據存儲需要巨大的存儲空間，而通過減少存儲周期的方式降低存儲空間，雖然控制了存儲成本，但也丟失了有價值的歷史數據。另一方面，大量的數據將造成分析上的性能壓力。

大部分時序數據具有時效性特征。歷史數據可以接受分鍾或小時級別的精度，而新產生的數據需要更高的精度（例如監控、線上問題調查）。數據運營、分析師需要存儲全量的數據以備分析，歷史數據直接 TTL 刪除是可能最差的選擇。

例如 Elasticsearch rollup、時序數據庫的降精度用於解決這部分問題。

一份數據在多種場景使用

對於同一份日志，可能被多種用戶角色在多種場景下使用到：

實時的數據，需要支持關鍵詞告警、時序數據 ML 巡檢、日志上下文查詢。
亞秒級延遲粒度上，有全文關鍵詞的查詢、交互式 SQL 統計分析的需求。
以天為單位，需要對日志做運營分析，計算轉化率、設計運營策略。
一周前的產生的數據，大部分時候不再會被觸碰到，在支持偶爾的歷史指標查看以外，審計場景下對全量日志的存儲也是必須項。

一份數據，多處使用，既要滿足業務需求，成本也是需要關心的。

自定義業務分析

雲上日志設施面對的客戶群呈現多樣化，自定義的業務需求舉例如下：

電商：計算七日留存率，業務訪問 SQL 審計日志對用戶信息脫敏，等等。
在線教育：多平台終端（android、ios、PC）埋點數據的規整，直播課堂生命周期內的異常診斷，等等。
游戲：按游戲的數據分發存儲，全文搜索支持工單調查，等等。

阿里雲 SLS 是雲原生觀測分析平台，為Log/Metric/Trace等數據提供大規模、低成本、實時平台化服務，一站式提供數據采集、加工、分析、告警可視化與投遞功能。我們將以業務為目標的數據處理歸納為兩類需求：

ETL：將非結構化的日志做預處理，為日志信息添加業務字段，數據脫敏與分發等。
分析：全局數據大表上的查詢和 SQL 分析，支持布爾搜索、window、aggregate 操作等。

SLS 上的典型分析方案

對於 ETL、分析這兩類計算任務，除了交互式分析以外，還需要常駐作業模式來處理結果落盤。

根據不同的業務需求，這里總結了幾種常見的 SLS 數據分析方案。

數倉 "T+1"

對於結果實時性不敏感的業務，有較多采用數倉方案：

數據通過 SLS 實時入庫，集中化存儲。
全托管數據投遞到 MaxCompute。
業務規划小時級或天級的計算任務，生成下游表，產出業務報表等結果。

流計算

以 Flink、Spark Streaming（continuous mode）、Kafka Streams 為代表的實時計算系統，在數據處理語義（exactly-once）、計算結果修正上的能力強大。該方案會用到 SLS 百 ms 秒級端到端延遲的 pub/sub 能力：

數據實時推送到 SLS 日志庫。
啟動流計算任務，從多個 shard 實時消費數據。
流計算任務根據算子組合情況（stateless、statefull、groupby 等）切分多個拓撲執行，可能涉及到數據 shuffle、watermark、state store 等機制。

這個方案在算子豐富度、實時能力、性能上綜合表現全面，是一把牛刀，例如在電商實時大屏場景上是非常好的選擇。

如果抱着挑刺的眼光來看：

計算引擎層面做得均衡，但缺乏存儲層的優化。例如：一個 logstore 上運行 10 個流計算作業，無論實際需要納入計算范圍的數據有多少，最終需要 10 遍全部數據流量的訂閱，從業務角度上看存在網絡、計算資源上的浪費。
對於日志用戶來說，在參數配置、性能調優、問題 Debug 有復雜性（復雜常常是通用、強大的另一面）。在復雜場景下，DevOps-er 理解業務需求后，需要設置好高級參數、選擇好 state store 等。
計算集群部署方式，尤其對於自建集群、數據稀疏的應用，其成本上有影響，例如 JobManager/TaskManager 等角色資源需要攤銷。

自建程序做流式消費

還是圍繞 SLS 的 pub/sub 能力，以 SLS SDK 方式調用 PullData API，例如：

通過 Logstash/Flume 等開源軟件，加載 SLS source connector。
通過函數計算（SLS 提供 FC 觸發器），好處是 Serverless 的 runtime，極致彈性計費。
通過 SLS 的 consumer group library 處理數據，自動負載均衡、failover。

以上對於行處理場景是適用的，適用面上則需要關注：

該方案在絕大部分情況下都不涉及全局計算（窗口、聚集），即使能實現也很復雜。
自建程序、開源軟件需要運維人力以及固定機器投入的成本。

自建程序做查詢、分析

在 SLS 的流式存儲之上，開啟了索引分析功能，帶來了全文索引、列式下推、SQL 計算能力加持。

該方案調用 SLS GetLogs API，部署一個常駐程序，設置定時觸發器，周期調度任務執行：

調用 API 讀取 SLS 索引並計算數據。
讀取計算結果寫出到目標做存儲。

用戶除了需要運維程序，還需要考慮以下需求：

SQL 運行可能因計算量巨大而超時，失敗時需調度層的重試支持。
執行延遲時告警支持。
調度元信息（schedule_time 等）持久化。
web console 管理的需求。
如何將 SQL 計算結果 exactly-once 入庫。

本文后續重點介紹的 Scheduled SQL，從本質上來講，是對該方案的服務化，對以上問題有更全面的考慮。

SLS 告警

對，你沒看錯。有少數用戶用 SLS 告警曲線救國，圖的是一個全托管、免運維。

SLS 告警功能支持設置定時策略，執行多個 SQL 獲取結果，並將結果編排后發送到內置 logstore（internal-alert-history）或自定義的網關/webhook。

需要說明的是，告警的主要設計場景是面向小的計算結果，按觸發策略、值班表，將事件傳達給接收者。對於嚴苛的業務，不推薦這種做法（可以關注 Scheduled SQL 功能做遷移）：

告警的結果寫出可能出現寫出數據大小截斷（1 MB 內）、 exactly-once 等問題。
告警 1.0 是串行調度，某一次計算發生延遲后，多次執行實例的 SQL 時間窗口會出現空洞。

SLS 原生數據處理方案

用一張圖描述 SLS 原生數據處理功能如下，接下來分別按存儲模型展開介紹：

stream 模型

例如通過 Flink、自建消費組程序進行 SLS 數據分析，都基於 stream 模型。這是 SLS 最基礎的存儲形式（也稱 LogHub），可以理解為 append-only 的 log 結構，通過多個 shard 組合實現 IO 和存儲的水平擴展。

LogHub 與開源軟件 Kafka 是類似的功能形態，SLS 底層是共享分布式存儲（盤古），這避免了 Kafka 在機器磁盤空間 re-balance、機器替換、存儲規模的一些缺陷。

stream 存儲模型在機器數據場景下有多重優勢：

寫入模型簡單，不需要 commit 機制，天生支持流式寫入，客戶端（移動端設備、Agent）友好。
append-only 保證了寫入吞吐的設計上限，滿足業務高並發、高吞吐需求。
FIFO 的 changelog 模式，滿足大多數日志、指標類數據的生成與使用場景。

針對流式數據 ETL 場景，SLS 支持數據加工功能，可以實現按量付費、全托管的行處理需求，本文不多介紹，可以參考SLS 數據加工的設計與實踐。

table 模型

當 stream 數據寫入后，對於 shard 內的數據，可以同時構建一份包括倒排、列存、bitmap 等信息的索引數據。shard 內 stream 數據相當於是正文，索引到今天有兩種形式：

Logstore (with index)：適用於日志模型，形式上是表結構，一條數據由多組 key-value pair 組成。
Metricstore：對於指標類型數據有針對性優化，有序排列存儲支持快速指標計算，高壓縮率低存儲成本。

例如 Logstore，在計算時稱為 append-only Table 模型。在 SLS 場景下有以下優勢：

計算效率高，時間（一級索引）過濾、計算下推都可以直接利用 index 進行，節省網絡、計算的性能開銷與計算成本。當然，index 會有構建費用，SLS 的一份 index 數據可以服務於多個業務場景（告警、儀表盤、全文搜索、監控）來攤銷成本。
OLAP 解決確定性問題，按照條件過濾取到數據后，直接進行計算即可，不需要考慮流計算中 watermark、trigger 與 window 配合、state store 數據膨脹（特定場景）等復雜問題。

Scheduled SQL 讓 SQL 可調度

SLS 的每一次 SQL 計算針對預定的一片數據做處理，因此，對全部時間區間（從現在開始一直到未來）數據的 SQL 分析依賴於上層調度，也就是將要介紹的新功能 Scheduled SQL，它支持標准SQL、SLS 查詢和分析語句，按照調度規則周期性執行，並將運行結果寫入到目標庫中。可用於以下場景：

定時分析數據：根據業務需求設置分析語句，定時執行，並將分析結果存儲到目標庫中。
全局聚合：對全量、細粒度的數據進行聚合存儲，匯總為存儲大小、精度適合的數據，相當於一定程度的有損壓縮數據。例如按照秒級別對 36 億條數據進行聚合存儲，存儲結果為 3150 萬條數據，存儲大小為全量數據的0.875%。
投影與過濾：對原始數據的字段進行篩選，按照一定條件過濾數據並存儲到目標Logstore中。該功能還可以通過數據加工實現，數據加工的DSL語法比SQL語法具備更強的ETL表達能力，更多信息請參見加工原理。

Scheduled SQL 相比於自建程序調用 SLS API 而言，有以下優勢：

SQL 運行 timeout 提升至 600 秒，單次最大處理百億級數據。
計算資源池可選：免費（project 級 15 並發）、付費（彈性擴展，參考SQL 獨享實例）。
最小 1 分鍾周期執行，支持常駐或固定時間區間內調度運行。
支持靈活的查詢時間窗口參數配置，滿足多樣化需求。
exactly-once 寫入目標庫。
完善的作業實例查看、重試支持（控制台、API）。
全托管運行，自動處理多種異常，調度不收費。
實例執行失敗集成 SLS 告警通知。

Scheduled SQL 功能介紹

工作機制

Scheduled SQL 涉及以下幾個重要概念：

作業：一個 Scheduled SQL 任務對應一個作業，包括調度策略、計算規則等信息。
實例：一個 Scheduled SQL 作業按照調度配置按時生成執行實例。每一個實例對原始數據進行 SQL 計算並將計算結果寫入目標庫。實例ID 是其唯一標識。
創建時間：實例的創建時間。一般是按照您配置的調度規則生成，在補運行或追趕延遲時會立即生成實例。
調度時間：由調度規則生成，不會受到上一個實例執行超時、延遲、補運行等情況的影響。大部分場景下，連續生成的實例的調度時間是連續的，可處理完整的數據集。

流計算里有大量篇幅用於處理數據計算的一致性、完整性問題，Scheduled SQL 則是一種以 small-batch 模擬常駐計算的方案，針對這兩個問題的設計是：

計算一致性

SQL 每次執行會對應到確定的時間窗口，由此得到確定數據集再調度 SQL 計算。Scheduled SQL 實例運行時，SQL 查詢的時間窗口是基於調度時間渲染得到，左閉右開格式，與實例的創建時間、執行時間無關。例如調度時間為2021/01/01 10:00:00，SQL時間窗口的表達式為[@m - 10m, @m)，則實際的SQL時間窗口為[2021/01/01 09:50:00, 2021/01/01 10:00:00)。
SQL 計算的結果在插入目標時，需要考慮數據重復可能帶來的業務影響。對於 append 模式寫，例如 Scheduled SQL 結果寫 Logstore，寫入客戶端與 SLS 服務端實現了 exactly-once 協議。對於 overwrite 模式寫，更容易做到原子性，未來會規划 Scheduled SQL 寫數據庫的支持。

數據的完整性

作業上設置延遲執行參數從業務上給與指導，在實例的調度時間點上，往后延遲 N 秒才真正開始觸發實例運行，而實例查詢的時間范圍不受延遲參數影響。例如設置調度間隔為每小時、延遲執行為30秒，那么一天生成24個實例，其中某實例的調度時間為2021/4/6 12:00:00，執行時間為2021/4/6 12:00:30。這個設計在大部分場景下可以解決數據遲到問題，但對於寫 logstore 存儲（數據寫入后將無法更新）來說，完全避免延遲問題是難以實現的。極端情況下，數據遲到問題可通過事后的實例重試來補結果。
將 SQL 查詢的時間窗口按分鍾對齊（例如整分鍾），以保證在 SLS 索引模型優化（batch log-group 組成倒排 doc）時依然能保證絕對的計算准確。

調度場景

Scheduled SQL 作業依次調度多個實例執行，無論是正常被調度還是被動異常實例重試的情況，同時只有一個實例處於運行中，不存在多個實例並發執行的情況。

在 SLS 數據場景下，主要的幾種調度場景如下：

場景一：實例延遲執行

無論實例是否延遲執行，實例的調度時間都是根據調度規則預先生成的。雖然前面的實例發生延遲時，可能導致后面的實例也延遲執行，但通過追趕執行進度，可逐漸減少延遲，直到恢復准時運行。

場景二：從某個歷史時間點開始執行Scheduled SQL作業

在當前時間點創建Scheduled SQL作業后，按照調度規則對歷史數據進行處理，從調度的開始時間創建補運行的實例，補運行的實例依次執行直到追上數據處理進度后，再按照預定計划執行新實例。

場景三：固定時間內執行Scheduled SQL作業

如果需要對指定時間段的日志做調度，則可設置調度的時間范圍。如果設置了調度的結束時間，則最后一個實例（調度時間小於調度結束時間）執行完成后，不再產生新的實例。

場景四：修改調度配置對生成實例的影響

修改調度配置后，下一個實例按照新配置生成。一般建議同步修改SQL時間窗口、調度頻率等配置，使得實例之間的SQL時間范圍可以連續。

場景五：重試失敗的實例

正常情況下，一個Scheduled SQL作業按照調度時間的遞增順序生成執行實例。如果實例執行失敗（例如權限不足、源庫不存在、目標庫不存在、SQL語法不合法），系統支持自動重試，當重試次數超過您配置的最大重試次數或重試時間超過您配置的最大運行時間時，重試結束，該實例狀態被置為失敗，然后系統繼續執行下一個實例。

您可以對失敗的實例設置告警通知並進行手動重試。您可以對最近7天內創建的實例進行查看、重試操作。調度執行完成后，系統會根據實際執行情況變更實例狀態為成功或失敗。