以下是一篇15年的文章的譯文:https://dwainegilmer.wordpress.com/2015/01/28/microsoft-trill-for-streaming-analytics-from-microsoft-research/
當今許多大數據應用程序套件的重點是數據存儲。它們是圍繞狹窄范圍的數據集設想和設計的,通常是為了組織內的特定業務功能使用。
對新數據源的不斷增加的需求使得許多BI應用程序在短短幾年內就過時了。令人遺憾的是,對於許多公司而言,他們的大數據戰略是存儲數據,直到其實際業務價值可以在未來某個時間解鎖。
在這些快節奏的時代,大多數企業迫切需要是實時的處理數據,而不是僅僅存儲數據並應用一組工具進行滯后的離線分析。Trill則可以從數據中實時提取可用的知識和分析結果。基於實時的當前信息對決策提供可靠的支持和制定。這最終將改善整個決策過程。
流分析應用程序在數據到達時就可以開始搜索分析數據。而不是通過查詢數據庫以拉取數據信息流來進行分析,將常設查詢應用於在捕獲數據時產生事件(推送)的數據流。
與傳統關系型數據庫比較。SQL Server旨在存儲和管理靜態數據,Trill則旨在分析動態數據。基於Trill構建的應用程序將流傳遞給一組查詢,這些查詢分析數據並在找到匹配項時觸發事件完成實時結果推送。
在大數據的新時代,公司正在競相推出大數據系統。這些系統本質上是用於檢查,轉換,存儲和建模業務數據的第一代緊耦合平台。Microsoft Trill(每天萬億事件)是Data Analytics層的一部分。
可以在Microsoft.com上可以找到介紹Trill的Microsoft Research(MSR)研究論文 。 Microsoft Trill是用於分析的流分析引擎或查詢處理器。Trill被設計為大數據的查詢處理器,有三個要求:
1) 查詢模型:使用早期結果實時處理流式和關系查詢,並提供離線查詢;
2) 結構和語言集成:提供從高級語言庫輕松訪問,以便與現有分發結構和應用程序集成;
3) 性能:低延遲和高吞吐量。
與Apache Storm,Microsoft SQL StreamInsight,Vertica Shark和Naiad Spark流相比,Trill具有許多優勢。Trill也將取代微軟的StreamInsight。下面是Microsoft的圖表,說明了差異並比較了功能集。
Trill具有時間語義化查詢的能力,允許用戶“通過實時或離線數據集的方式進行復雜查詢”,並且由於分析引擎“在預期的使用場景中具有高性能”,因此可以比以前更快地獲得結果。
Trill使用批量處理事件的新技術和算法。並且,這些批次中的數據以一種促使查詢更有效地方式執行與組織。
結論
事實上,我們目前的總存儲容量能提供的能力遠遠落后於存儲新的和變化的數據流不斷增長的需求。此種情況下很快就會引發以處理數據和流分析為處理方式的轉變。
額外的閱讀資料:
您可以從以下出版物中了解有關Trill的更多信息,或者從我們的幻燈片中了解更多信息pdf | pptx。
Trill現在是開源的,可以在GitHub上找到!