構建以知識圖譜為核心的下一代數據中台


作者 | 圖特摩斯科技創始人閉雨哲

來源 | AI科技大本營(ID:rgznai100)

 

前言

圖特摩斯科技(Thutmose)基於自研的圖形數據庫AbutionGraph(實時多維數據存儲與計算一體化的高可用平台)為核心,構建AI智能認知中台(認知圖譜平台)來實現業務銜接,它不僅是一個能力中台,也是一個戰略中台。

作為能力平台,Thutmose認知中台向下作為整合者融合大數據與人工智能技術能力,向上作為方案提供者賦能業務,上下資源的整合即體現出中台的價值.作為戰略中台,不僅要實現AI技術的可落地方案,更要實現能力的復用,通過“業務場景復制”來進行業務擴張,取得規模化效應。

總體而言,Thutmose構建的知識圖譜認知中台並非只是面向能力領域,而是基於大數據與AI能力來面向領域業務輸出價值。

中台在數字化轉型中的作用

在已過去2019年,“中台”的浪潮之風呼嘯而來,伴隨着大數據、人工智能等技術的發展,數字化轉型成為了不少傳統企業的“救命稻草”。各種企業數字化轉型的解決方案也隨之應聲而出,一線互聯網企業和傳統巨頭紛紛入局,數據中台,業務中台,技術中台……眾多中台名詞不斷涌現。

人們已經習慣了從信息技術角度來理解和開展數字化轉型,許多企業並沒有意識到這一輪數字化轉型的戰略性、系統性和長期性,僅僅重視引入各種設備、機器人、IT系統,認為有了自動化、智能化的裝備、生產鏈、銷售渠道就是實現了數字化轉型。其實不然,如企業真的要做產業互聯網、數字化轉型,可能PaaS比SaaS更重要。據埃森哲去年披露的中國企業數字化轉型的報告指出:中國企業數字化轉型成功的企業比例只占7%,中台並不能代表企業數字化轉型的需求,中台它是個重要的事,但是它也不是數字化全部的事。

 

根本原因在於,“數據”的價值正在越來越受到企業的重視,數據正在成為企業最核心以及最重要的生產資料,成為決定企業業務轉型的關鍵因素。企業需要一個源源不斷的輸出數據服務,數據洞察的能力源泉。即,數字化的本質是網絡聚合思維,以數據驅動、網絡效應為主,在輔以算法模型,形成一個統一的數字化智能平台,支撐企業數據的處理和業務的敏捷創新。

 

構建以知識圖譜為核心的數據中台

雖然數據中台的概念才火不過一年,但是關於數據中台的解釋卻有很大不同,各有道理,但如果我問你數據中台與數據倉庫、數據平台、數據湖等有什么本質區別,你不一定說得清楚。

 

《思考|談談數據管理的原則》的作者說過,數據中台起碼有3個特征:業務化、服務化及開放化。我認為基於知識圖譜的中台還應具備知識化的特征,業務是根本,服務是手段,知識化是能力,開放是價值。這4點是傳統的數據平台很難兼顧的,也是我們較於其他中台的優化之處。

一、數據知識化

用知識的相互作用來表現數據

傳統數據庫中的數據是靜態的,每一條數據代表一個事件,我們首先要做的是將這些數據知識化,如圖所示,把每一個事件關聯起來,做成一個反映真實世界的事件動態變化的認知圖譜。

人工智能技術實現了從感知到認知的能力跨越,最重要的具備像人類大腦對知識的關聯、聯想和探索能力,而知識圖譜是目前最趨近與人類大腦思維本質的AI 底層技術,亦是人工智能技術最重要的基礎設施。Thutmose在大數據存儲之上創新再創新,將傳統數據表映射成圖譜結構,再將圖譜存儲升級成實時圖譜,再賦予實時圖譜動態的認知能力,最后升級成多維認知圖譜,它是一個包含多方面信息的領域畫像,這是我們的技術平台AbutionGraph所支持的知識化能力。

企業可通過多維感知的實體、關系、事件挖掘實現對客觀世界的邏輯認知,是計算機能夠實現推理、預測等類似人類思考能力的關鍵。這也是物聯網時代“萬物互聯”的數據表達形式,每一條數據知識化后都將會獲得語境感知,增強的處理能力和更好的感應能力。將這些原本靜止的內容物(人、物、信息)抽象到知識圖譜中,你將會得到一個集合十億甚至萬億連接的行業網絡,企業的自身“價值”也將來自網絡不斷增加的“內容物的數量”與網絡能表征“信息的豐富程度”。這些連接將會創造前所未有的機會並帶來更加豐富的體驗和前所未有的經濟發展機遇。

二、數據業務化

用業務驅動數據的建設

為什么僅使用數據倉庫不能作為數據中台?因為數據倉庫只是實現了數據的平台化,平台化就是把那些有共性的資源、有共性的能力合並在一起,然后把那些面向客戶的價值獨立出來,這樣的話,基於這個數據庫專業的人做專業的事情,不揉在一塊了,更加的清晰,這就是平台化的思路,當然了,僅僅依靠一個單一的數據存儲進行數據分析已不能很好解決問題。如上圖所示,使用數據倉庫可以存儲事件數據,但不能以網絡的思維反映事件,傳統方法想要達到相同效果的業務可能需要付出大得多的開發周期,質量也很難得到提升。當業務的進化使得系統需要升級時,即是業務場景驅動數據建設的時候。

 

一個優秀的數據中台底座對企業實現業務敏捷是非常重要的,尤其在大型企業中,要想在增量市場逐漸向存量市場轉變的環境中生存,需要應對不斷變化的市場環境,出路唯有——創新,產品創新、業務創新、服務創新、銷售創新。敏捷高效地支持這些創新,就是企業數字化轉型的真正需求。

 

基於賦能業務創新的思路,圖特摩斯科技研發的AbutionAI技術棧核心架構結合了數據倉庫,時間序列數據庫和圖形矩陣存儲的創意,並加入大規模實時處理與計算架構,數據存儲是我們平台的共性,也是基礎,是我們重點設計的部分。與一般的ETL流程不同,圖形存儲AbutionGraph通過實時大數據計算框架Flink/Kafka/MQ/Spark將各方的數據資源匯聚在一起(E)后,直接使用自身的框架存儲與計算架構實現業務指標的的計算+存儲(TL),簡化了數據轉化與計算環節。

AbutionGraph還將大多數目前熱門的大數據與人工智能技術壁壘打通,提供一個通用的數據存儲+數據計算+數據分析的一體化平台,這是業務化平台的基石,您可以依據業務按需使用滿足的技術組合進行實現分層建模,最終實現數據的共享,整個過程就是柔性數據處理"流水線",從而滿足不斷豐富、變化的數據分析、挖掘類需求,使您可以非常高效的完成業務模型開發,同時減少技術研發與維護成本。

基於AbutionGraph的數據中台可以允許不同的業務隔離、不同的用戶隔離,依據業務您可以輕松在上層構建一個時序的圖譜、傳統的圖譜、實時的圖譜、離線的圖譜、可融合的多個圖譜..不同業務的圖譜天然的隔離在一個平台上,AbutionGraph一個強大的功能允許知識融合(數據合並),將天然隔離的業務圖(eg. 訂單圖,好友圖,歷史消費圖等)以不影響各自存儲的情況下,做多圖合並查詢、多圖路徑搜索,得出多個業務數據間的關聯結果,就像是在知識圖譜領域的多表關聯查詢,通過查詢,我們可以輕松的知道張三身邊的好友的消費狀況等,深入了解您的用戶並不斷優化您的服務,就是在創造價值。

 

業務的創新升級離不開技術的更新換代,比如企業以前使用大數據技術Spark做某項業務指標分析,在分鍾內可以得到分析報告,但是現在有另一個大數據技術Flink可在多秒內得到分析報告,這對於實時分析與洞察類業務可帶來的業務創新空間是相當樂觀的,值得企業去做技術升級,也是基於這樣的企業數字化本質需求,為其提供分析和判斷能能力,就是所謂的中台。所以,在數字化轉型中需要先建設一個數字化的智能平台,這個平台理所當然需要有一個功能強大的技術核心進行構建,然后再把SaaS(企業應用軟件)里面的數據做一些整合和創新應用,從而實現業務智能。

 

需求還是原來的需求,我們通過技術創新與優化落地,現在可以把它實現的更好。這是大數據與人工智能技術的成熟帶給我們最切實的賦能,需求沒變,但是衡量標准變了。這就叫業務化,用業務驅動數據的建設,這是數據中台希望達到的目標。

三、數據服務化

將數據以共享的方式服務於多項業務

服務化的概念最初是為了解決代碼功能的使用問題,以及應對單體應用無法承載不斷發展和演進的后台接口服務。隨着各項業務的落地,單體應用不斷裂變成成百上千個包含獨立業務服務的垂直應用,數據支撐服務成為企業發展中的一個難題。為這些應用提供能夠被共享使用的數據,在前端被業務人員或者其他機器快速方便的使用或調用,減少重復開發和維護的工作量及隨之帶來的風險,同時能夠讓系統各模塊解藕,減少關聯風險,這些是數據服務化的作用。

 

圖特摩斯科技負責人認為,基於知識圖譜的數據中台平台應具備解決以下用戶痛點的能力:

1.   代碼重復

各部門或各個業務線都是自己通過DAO寫SQL訪問數據庫來存取相同的數據,這無形中就導致了代碼的重復。應開發適配的接口,讓相同功能的代碼得以復用,避免重復開發。

2.   復雜性擴散

隨着並發量的越來越高,數據的訪問成了瓶頸,需要加入緩存機制來降低數據庫的讀壓力,由於沒有統一的服務層,各個業務線都需要關注緩存的引入導致的復雜性。這就需要我們去做一個統一的分布式緩存,不管業務線怎樣,按需掛取。一個成熟的數據中台應該隱藏掉緩存開發,較少復雜性,變成一個通用接口,開發者實現業務邏輯的時候只需記住自己放了什么緩存,用完后刪除釋放資源。當用戶量上升時,可動態的增加緩存服務器,實現動態擴容,原有的緩存也會重新均衡到每台服務器上。

3.   分布式服務層-高可用

目前市場化的圖數據庫都只實現了數據的分布式存儲,卻沒有實現服務的分布式。以較知名的圖數據庫JanusGraph來說,所有的數據訪問都通過集群中的某台機器進行使用,當多用戶頻繁查詢與寫入數據,就可能導致該台機器資源過度使用而宕機,服務就無法使用了。也有些開發者通過嫁接Ngix來制造負載均衡,這其實只是把單個服務變成了很多的單個服務,Cache層並沒有分布式,即圖實例沒有共享。舉個簡單的例子:

張三在機器A上新建了Graph1,在機器B上李四是不知道數據庫中有了Graph1的,需要張三告訴李四,我建了個Graph1,你初始化一下圖連接吧,這時,李四才可以使用到這個Graph1。

4.   復雜SQL質量得不到保障,業務相互影響

對於業務線數據的抽取調用,一般通過DAO訪問數據庫,在圖形數據查詢中,有專門面向圖形數據的查詢語義,常見的如Gremlin和Cypher。不論是普通的SQL還是GraphQL,不同的開發人員實現的質量和效率可能會大有不同,比如業務線A寫了一個全表掃描的SQL,導致數據庫的 CPU100%,影響的不只是一個業務線,而是所有的業務線都會受影響。

基於此問題,我們對不同的graph賦予不同的資源使用率,合理的分配每個graph在總資源中的占比。比如集群總CPU內核為20個,數據圖graph1承載的業務量較大,我們賦予它可以使用15個內核,數據圖graph2承載的業務量較小,我們賦予它可以使用2個內核。給我們帶來的好處是,2個grpah同時執行數據查詢使不會相互影響,也不會導致數據庫的 CPU100%。

就服務化來說,我們不應該談到SQL層,而是應該盡量簡化的提供到接口層,不管你使用的開發語言是什么,只要數據能夠被共享使用,在前端被業務人員或者其他機器快速方便的使用或調用,這就是好的服務化。

5.瘋狂的DB耦合-知識融合,單圖結構越來越大

DB耦合是針對傳統數據庫而言的,面對傳統數據庫我們可以做多表關聯操作,典型的,通過join 數據表來實現各自業務線的一些業務邏輯。

這樣的話,業務線A的table與table-A耦合在了一起,業務線B的table與table-B耦合在了一起,業務線C的table與table-C耦合在了一起,結果就是:table,table-A,table-B,table-C都耦合在了一起。

這是傳統數據庫的缺陷,但卻是圖形數據庫所不具備的優點。因其天生的不支持跨圖關聯查詢,要實現多業務線關聯,就要將所有有關聯的這些A/B/C數據表都放在一個大圖里,隨着數據量的越來越大,業務線 ABC 的數據庫便很難垂直拆分開,造成過度的知識融合。所以我們希望在不影響各個業務數據圖存儲的情況下,對多種業務圖的關聯合並查詢,就像傳統數據庫的表關聯查詢一樣,以解決知識融合遇到的問題。 

四、開放化

吸納建議,融入更多優秀開源方案,使受眾面更廣

 

形式意義上,有了知識化、業務化、服務化特征的數據平台即是個合格的數據中台了。但它僅是合格,達到優秀關鍵還要看數據中台的開放能力,這個決定了它能創造的最終價值。

1、開放意味着知道

數據中台要發揮出價值,光有能力不夠,你必須通過各種手段告知別人你有這種能力,其實這也是我堅持寫文章宣傳平台的原因。我們還需要與各行各業的企業合作,賦予數字化解決方案,並將轉化的成果公示,希望讓社會知道我們是有能力且開放的,希望大家合作共贏。

2、開放意味着好用

數據中台由於直接為前端服務,對於體驗的要求特別高,比如你讓人家查詢到了某個標簽,但由於這個標簽解釋性差就放棄了,我們支持在每個實體與關系上存儲着超多維度的屬性就是要解決好這類問題。我們整合數據處理技術Flink/Spark/MemCache/TensorFlow/Keras...不僅僅於技術整合,它們可以實現圖形數據的無縫轉換后直接使用。我們在一個圖形數據庫上匯聚了數據倉庫、KV數據庫、時間序列數據庫的特性,就是為了更好的服務於業務。數據做到最后都是細微之處見真功夫。

3、開放意味着迭代

從某種意義上來說,技術和產品屬於科技平台的糧草、城牆。敢於開放數據中台,就意味着要以謙卑的心態去接受批評並不斷迭代優化來穩固城牆,還要持續的去運營,從行業經驗出發,去看我提供的數據或產品服務是有誰在用,用的情況如何,產生了多少收入,從而給出提升的方法,確定標准后構建更多PaaS+模塊化能力,如此循環,形成更多的積木來穩固城牆,實現更多可快速落地的最佳實踐,你的數據中台的價值才會越來越大。

圖特摩斯智能認知中台的發展

圖特摩斯科技基於知識圖譜的智能認知中台生態概覽

由架構圖可以看到,圖特摩斯科技在AI生態建設中已有一套成熟的系統方案,基於自研的國內首款實時多維圖形數據庫AbutionGraph,大數據與人工智能技術的兩端聯動,構成中台核心能力,它是個具有行業“知識”的數據中台,是個能被持續使用的技術體系。在能力層匯聚獨有的PaaS+API接口,業務方只需對接一個API即可實現通用功能,向上賦能集團內外業務。

 

在開放上下游的同時,我們也積極的開發整個技術生態的能力,例如我們圍繞AbutionGraph基於Spark在之上開發了世界最豐富的圖挖掘算法庫,它包含13大類60余種算法,將這些算法映射成中台服務后,業務方也只需調用它即使用它。作為分布式大數據平台的基礎數據服務能力者角色,實現了大數據與人工智能各技術間的相互協作,讓自己成為生態的主導方、核心方,全技術生態的支持,使我們更容易的構建一個業務閉環、生態牢固、以知識圖譜為核心的下一代數據中台。並在生態上為合作伙伴解決問題,致力於為企業提供數字化智能平台全棧服務,實現價值最大化。

 

中台的下半場,這個賽道還是會持續向前,無論是數據中台、業務中台還是AI中台,所有的數據關系都是越來越向真實世界靠攏的,可以遇見的是,知識圖譜終將成為數據中台最核心的技術之一。面對變化的市場環境,除了領先的技術,能落地、穩落地的中台才是好中台,始終應以市場客戶需求為導向,腳踏實地的從實際場景出發,長遠制勝。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM