縱覽數據庫頂會VLDB 2019論文,我們發現了六大發展動向
作者 | 韓碩
【導讀】一年一度的數據庫領域頂級會議 VLDB 2019 於當地時間8月26日-8月30日在美國加利福尼亞州洛杉磯召開,探討交流數據庫領域最前沿的技術和發展方向。
在本屆大會上,騰訊公司與中國人民大學、新加坡國立大學合作,投中 Industry Paper 兩篇。其中 TDSQL 團隊的論文工作“A Lightweight and Efficient Temporal Database Management System in TDSQL”,介紹了基於分布式事務數據庫 TDSQL擴展而來的全時態數據庫系統T-TDSQL。該系統在保證OLTP性能的前提下,提供了輕量級的全時態數據管理功能和全時態數據的事務處理能力、以及集當前態數據於生產系統集歷史態數據於分析型系統的集群架構,構成了全時態數據的完備解決方案。
在大會召開后,騰訊 TDSQL 團隊對本屆大會的論文進行了匯總歸納,萃取精華與讀者一同分享。
VLDB 簡介
VLDB會議的全稱是Very Large Data Bases Conferences,由 VLDB Endowment 主辦,來自全球各地的數據庫相關領域研究人員、供應商、參與者、應用開發者等共同參與和關注的國際重大學術會議。其目的在於促進和交換全世界范圍內的數據庫及其相關領域中的前沿學術工作。VLDB 與 ACM 主辦的 SIGMOD、IEEE 主辦的 ICDE 合稱數據庫領域三大頂級會議。而在發表論文難度和受關注程度上,VLDB 與 SIGMOD 可謂並駕齊驅。
值得一提的是,與多數計算機領域學術會議一年一次或兩次的投稿周期不同,VLDB Endowment自 2008 年以來建立了 PVLDB(The Proceedings of the VLDB),此后以期刊的形式評審論文,每一個月為一次投稿周期,即每個月的1號為上個月投稿周期的截止時間,一年有12次投稿機會。而審稿周期較傳統期刊更短,論文作者一般會在一個半月到兩個月的時間內收到評審意見反饋。在每年的 VLDB 會議上,一年以來被 PVLDB 收錄的論文將進行集中報告。
VLDB 2019
本年度的 VLDB 會議已是第 45 屆會議,於8月26日至30日在美國西海岸的著名城市洛杉磯舉辦。大會議程包括3個主題演講(Keynote)、28個學術論文報告分會(Research Session)、4個工業界論文報告分會(Industry Session)、2個工業界邀請演講(Invited Industry Talks)、2個系統展示論壇(Demo Session)、7個教程(Tutorial),以及博士生論壇(PhD Workshop)和多個子研討會(Workshop)等。共歷時5天,其中首尾兩天是各個Workshop,正會3天。
今年一共有 128 篇 Research Paper,22 篇 Industry Paper,以及 48 篇 Demo Paper 入選。與去年相比,收錄的 Research Paper 和 Demo Paper 數量保持基本穩定,而 Industry Paper 有了顯著的提升,從去年的12篇增加到今年的22篇。從投稿數量與錄用率來看,Research Paper投稿677篇,錄用率18.9%,Industry Paper為72/30.6%,Demo Paper為127/37.8%。與去年相比,Research Paper的投稿數量略有下降,錄用率則基本持平。
從工業界論文的收錄數量增加可以看出,今年的 VLDB 會議學術界和工業界合作交流趨勢進一步增強。而且除了 Industry Paper 以外,在 Research Paper 中也有許多工作是由企業或企業與高校聯合完成的,例如 Google、Microsoft、IBM 和國內的阿里巴巴均有多篇 Research Paper 入選。大會的程序委員會中也能見到諸多業界人士擔任分會主席或審稿人。
國內方面,今年由大陸高校(不含港澳台)和企業主導或參與的 Research Paper 共有 27 篇,數量上與去年相比略有提升,其中清華大學、浙江大學等高校均發表了多篇論文。來自大陸高校的論文中,最主要的研究方向集中在圖數據和機器學習,其中有 7 篇論文與圖數據相關。從往年大陸高校在 VLDB、SIGMOD 等數據庫會議的論文發表情況來看,圖數據一直是華人學者比較強勢的研究方向。此外,在查詢優化、隱私保護、空間數據、眾包、區塊鏈等主題上,國內高校也均有涉及。國內業界對於數據庫學術會議的參與度進一步提高,騰訊、阿里巴巴、華為等國內企業在本屆會議上均有論文發表,研究方向主要集中在 RDBMS 和分布式系統。
接下來,本文主要從論文分布和技術發展動向對本屆 VLDB 論文進行概覽。
論文總體分布情況
為了便於統一安排論文報告分會的時間長度,本屆大會將論文粗略地按照研究方向均分為了 28 個 Research Session 和 4 個 Industry Session,每個 Session 有 4-5 篇論文進行報告。
由於論文的研究方向分布不均衡,熱門的方向會安排多個 Session,例如事務處理、查詢優化、分布式系統和圖數據,而論文數量較少的不同方向可能混雜在同一個 Session 中,因此各 Session 之間的界限和層級關系並不太清晰。
我們閱讀了全部論文的內容,在 Session 划分的基礎上,根據每篇論文的研究方向以及針對的數據類型,將論文進行了更加細致清晰的分類,便於大家了解各個領域的研究熱度。
圖1. VLDB 2019 各領域論文分布
圖2. VLDB 2018 各領域論文分布
因為存在一篇論文涉及多個領域的情況,因此圖1中各個領域論文的數量之和大於了總論文數量。從圖1的分布情況可以看出,關系型數據庫(RDBMS)的研究仍然是主流,但總體數量上比去年(見圖2)有所減少(今年34,去年42),占總論文數量的約1/4;其次是關於圖數據和圖數據庫系統的研究,相關論文涉及了大規模數據圖上的子圖匹配、社團發現、帶約束的最短路徑查詢等經典算法問題,以及分布式環境下的圖分割等問題。除了關系數據模型的統治地位不可撼動之外,近年來圖數據模型也逐漸被應用於實際業務中。而無論是關系型數據、圖數據或是其他數據類型,查詢執行和查詢優化始終是性能優化的核心問題。隨着移動互聯網、物聯網近年來的快速發展,不斷催生了依賴於時空信息且實時性強的應用,因而時空數據和流數據的相關論文在本屆會議上也占據了一席之地。此外,機器學習與數據庫逐漸聯系緊密,也有一些論文嘗試使用機器學習算法來優化查詢算法。
RDBMS 中各子領域論文分布情況
在與RDBMS相關的論文中,我們進一步按照其涉及的子領域進行細分,如圖3所示。本屆會議上有關事務處理的論文數量與去年(見圖4)相比有明顯增加,分布式事務處理既是難點也是熱點。而查詢優化、存儲優化、緩存優化這些與性能密切相關的主題始終是數據庫領域研究的核心。此外,研究者們逐漸意識到如何促進用戶更方便直觀地訪問數據庫是一個需要解決的重要問題,學術界將其定義為數據可用性(Data Usability)問題,因而近年來也有不少論文圍繞這一問題研究了交互式訪問接口、數據可視化等技術。
圖3. VLDB 2019 RDBMS子領域論文分布
圖4. VLDB 2018 RDBMS子領域論文分布
來自工業界的論文
工業界的論文來自 Google、Microsoft、IBM、Amazon、Facebook、SAP、eBay,以及國內的騰訊、阿里巴巴、華為等企業。除了 20 篇 Industry Paper 之外,據統計,在 Research Paper 中由企業獨立完成或主導完成的論文有 11 篇,企業與高校合作的論文有 17 篇,占到 Research Paper 的 1/5;而 Demo Paper 中,也有 14 篇企業主導或參與的論文。由此可見工業界在數據庫研究中參與度之高,企業與高校的合作日益密切。明顯感到與學術界論文的區別是,工業界的論文更加注重系統實現和業務落地,而學術界論文則側重於某個技術難點或者說算法問題的攻關。兩者的優勢結合則更有可能產出高質量的研究成果。
數據庫技術發展動向
我們從本屆 VLDB 論文中嘗試觀察總結數據庫技術發展的新動向,拋磚引玉,期待與讀者共同交流。如下是本屆大會論文討論到的一些重要話題。
分布式事務處理
隨着摩爾定律的停滯失效,單機存儲和計算能力增長遇到了瓶頸,現代數據庫系統也朝着分布式多機集群發展,而其中遇到的最大的技術挑戰即是分布式事務處理。如何保持分布式數據的一致性,事務隔離性不同級別的高效實現,都有待進一步深入研究。在本屆 VLDB 中,事務處理的相關論文數量也有了明顯增加。
例如論文“Adaptive Optimistic Concurrency Control for Heterogeneous Workloads”提出了一個簡單有效的AOCC(自適應樂觀並發控制)框架。根據查詢讀取的記錄數,以及涉及更新操作的並發事務的寫大小,AOCC自適應地選擇合適的Validation 策略來降低開銷,從而在不犧牲可串行化的前提下提升異質負荷的性能。論文“Improving Optimistic Concurrency Control Through Transaction Batching and Operation Reordering”則通過事務的批量執行和操作的重排序來提升OCC性能。恰巧,TDSQL的第二代事務處理機制,也是基於OCC機制,期待能有機會和大家深入進行探討。
論文“SLOG: Serializable, Low-latency, Geo-replicated Transactions” 指出,現有的支持異地備援(Geo-replicated)的數據庫通常需要在三個方面做取舍:(1)嚴格可串行化,(2)低延遲寫入,(3)高事務處理吞吐量。該論文提出的SLOG系統利用了物理分區的局部性特征,能夠同時滿足以上三個要求。
在事務處理中,數據的故障恢復機制是很復雜的一項。傳統的數據庫實現通常需要維護WAL(Write Ahead Log)和數據本身的持久化存儲,而且恢復算法滲透到了系統的各個模塊,即數據庫的各個模塊在設計和實現時都需要考慮恢復功能的正確性,以保持事務的原子性。論文“FineLine: Log-structured Transactional Storage and Recovery” 中提出了FineLine——一個事務存儲和恢復機制,舍棄了傳統WAL,將所有需要持久化的數據存儲到一個單一的數據結構,達到了數據庫的持久化部分和內存中數據之間的設計解耦。
區塊鏈技術 & Best Paper Award
區塊鏈也是當下的熱門話題之一,本屆 VLDB 增加了一個關於區塊鏈的單獨 Session,共有 4 篇論文入圍。值得一提的是,本屆 VLDB 的 Best Paper Award 頒予了論文“Fine-Grained, Secure and Efficient Data Provenance on Blockchain Systems”。
這篇最佳論文的研究動機是,區塊鏈系統還沒有一個方便的方法來追溯數據的起源和變遷(Lineage,血統),只能依靠回放事務來重現過去的狀態,這種方式適用於大規模的線下分析,但是不適合線上的事務處理系統。論文給出一個簡單的例子:賬戶A給B轉賬,要求近期賬戶B的每日余額位於某一閾值以上,才可轉賬,現有系統需要重放近期B賬戶每天的交易,才能作出轉賬的決策。為了解決這樣的問題,該論文提出了LineageChain系統,能夠做到細粒度、安全高效地回溯區塊鏈數據。LineageChain基於Hyperledger實現,底層存儲為ForkBase(同一團隊研發的面向區塊鏈的存儲系統,論文發表於VLDB 2018,“ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications”)。論文提出了一種新型的索引,針對區塊鏈數據起源和變遷的查詢作出優化。在線交易進行時,LineageChain能夠精細、安全地保留下數據的變遷,並且對外提供簡單的接口來訪問這些數據變遷。
這篇論文提及“The management of that history, also known as data provenance or lineage, has been studied extensively in database systems.”,其實,這是對於歷史數據的一種管理理念,其核心是認為“歷史數據具有價值”。這一理念,使得數據處理系統的數據處理疆域擴展,延伸到了歷史數據的存儲、管理和計算領域,非常有意義。作為“Best Paper”,該文有許多值得我們學習之處。而異曲同工的是,騰訊TDSQL在本屆VLDB投中的《A Lightweight and Efficient Temporal Database Management System in TDSQL》一文,系統地闡述了騰訊TDSQL對於歷史數據管理的完備方案和主要技術:從數據生命周期到全時態數據模型的建立、從事務處理到分布式系統的全局讀一致,從查詢優化到索引建立,從事務型生產系統到分析歷史數據的分析型集群的數據無損、性能無損的體系結構的一體化構建,表明了騰訊公司TDSQL系統處理歷史數據的完備性、先進性,以及技術的前瞻性。
無獨有偶,AWS在2018年底發布的QLDB(Quantum Ledger Database(量子賬本數據庫)),也意在解決歷史態數據的存儲、管理和計算。詳情可參考《論亞馬遜QLDB與騰訊TDSQL對歷史數據的管理和計算》。
新硬件
新的存儲硬件和計算硬件,例如NVM、SSD、NUMA,SIMD、多核CPU、GPU、FPGA等,為數據庫性能的scale up帶來了新的機會。如何充分利用新硬件的優勢來提高數據庫性能也是近年來的研究熱點之一。本屆VLDB有多達9篇論文涉及該方向,提供了使用GPU、SIMD加速RDBMS或者機器學習平台的並行計算能力,使用NUMA實現分布式數據庫的高可用數據復制方案等新技術思路。
機器學習平台
機器學習、深度學習作為時下最為火熱的研究領域,也受到了數據庫學者的廣泛關注。機器學習、深度學習算法通常是計算密集型任務,而且在實際應用中訓練數據通常也遠超單機所能承受的數據規模,因此如何利用大數據分布式存儲與計算能力,為用戶提供一站式的機器學習和深度學習平台服務,是兩者的契合點。一個明顯的體現是最近三年來的數據庫領域會議如 VLDB、SIGMOD 增加了機器學習相關的 Track。
使用機器學習算法優化DBMS性能
這是機器學習與數據庫技術的另一個結合點。例如論文“Towards a Learning Optimizer for Shared Clouds”研究了在多租戶雲數據庫環境下,使用歷史查詢的執行統計數據進行訓練學習,來預估未來查詢的中間結果基數大小,從而指導生成更優的查詢計划。此外,近兩年的VLDB、SIGMOD也有使用機器學習模型來優化索引結構、存儲、參數自動調優的相關研究工作。
圖數據庫與圖計算平台
相比於關系表結構,圖模型更能靈活地表示事物實體之間的關聯關系。隨着知識圖譜的普及和應用,對圖數據的研究在數據庫領域占據了一席之地。但與關系表的Lookup、Scan、Join等基本操作不同,圖的各種算法操作種類繁多,而且其中很多算法復雜度較高。大規模圖數據的存儲、查詢和各種分析計算,成為了新的技術難點。相關的研究內容有圖數據庫和圖分析計算平台的構建。
以上介紹了這么多,大家對本屆VLDB是不是有了更多的了解呢?歡迎與我們交流感想與思考。在后續的文章中,他二哥也會繼續為大家帶來更多的現場報道和技術分享,期待大家繼續關注今年VLDB的動態哦!
本文作者介紹:
韓碩,2014年於北京郵電大學獲得工學學士學位,2019年於北京大學獲得理學博士學位。博士期間的主要研究方向為圖數據管理和知識圖譜。畢業后加入騰訊公司從事數據庫技術研發工作。