引言
虎牙是中國第一家上市的游戲直播公司,旗下產品包括知名游戲直播平台虎牙直播、風靡東南亞和南美的游戲直播平台NimoTV等,產品覆蓋PC、Web、移動三端。其中,游戲直播平台虎牙直播月活達1.5億。
如何借助於海量業務數據將全平台的優質內容與終端用戶更智能、高效地連接起來,為公司運營和業務發展提供更為有效的數據能力支撐,是虎牙大數據團隊(下面簡稱虎牙)過去和未來一直需要深入思考和探索的重要使命。為了達成以上願景,虎牙選擇與騰訊雲EMR團隊合作,接入大數據雲端解決方案。
本文將通過案例解讀,帶大家深入了解虎牙雲端大數據實踐。
一、虎牙直播大數據分析場景
1. 背景介紹
虎牙是中國第一家上市的游戲直播公司,旗下產品包括知名游戲直播平台虎牙直播、風靡東南亞和南美的游戲直播平台NimoTV等,產品覆蓋PC、Web、移動三端。其中,游戲直播平台虎牙直播月活達1.5億。
2. 大數據場景介紹
意識到數據對於業務的重要價值,虎牙很早就成立了近百人的專業大數據團隊,這個團隊擁有業內卓越的數據技術能力和業務理解力,以應對海量數據的高效存儲計算、算法構建、業務價值洞察等領域化工作。
經過多年的建設,該團隊圍繞數據在各個領域都取得了極為顯著的進展,真正讓數據成為優質內容與終端用戶連接的催化劑。
虎牙大數據團隊基於開放Hadoop技術棧快速構建了穩健的全平台大數據平台,以支撐近百P規模的離線、實時流式數據的高效存儲計算及數據科學探索;同時也在數據領域價值應用上進行精准內容推薦、經營分析、用戶體驗改善等數據應用價值探索。
借助於全平台大數據平台,虎牙全公司各業務線可以快速、低成本地接入業務線數據,並可借助於該平台進行持續的技術演進。
終端客戶可以及時獲取到與自身興趣強相關的個性化優質內容(電競、主機游戲、手機游戲、美食、二次元等),獲取沉浸式的體驗。
作為內容供應方的主播也可以通過對自己直播數據的分析,調整演播風格及內容吸引更多用戶關注。
二、大數據分析的挑戰
基於大規模的數據增長以及業務的更高訴求,人們對數據工具提出了更為實用的要求。隨着時間的流逝,傳統的IDC自建大數據分析平台逐漸顯現出兩個問題:響應不夠及時,成本高。
1. 響應及時性挑戰
第一個挑戰在突發任務響應的及時性上。例行任務按照時間維度可以分為月、周、天、小時、分鍾,這些任務被均勻地分配到了大數據分析平台中,平台的負載也長期維持在合理(相對飽和)的范圍內,很好地利用了昂貴的IDC硬件資源。
但是隨着大數據分析在業務價值挖掘上的作用愈加重要,突發及新增的分析任務變多了起來,此時,趨於飽和使用率的硬件資源便會成為瓶頸,從提交預算申領設備到新設備加入分析集群通常需要在兩周才能完成,但這也往往導致結果延期交付。
另一個隨之而來的的問題是:預留更多的硬件設施也意味着性價比的降低。
2. 成本挑戰
第二個挑戰在冷數據的存儲成本上。隨着時間推移,越來越多的數據變成歷史數據,占用硬件資源不變而使用率卻在下降,如何降低冷數據的存儲成本,同時在需要的時候又能快速分析,這也是一個比較有挑戰的課題。
三、雲端大數據解決方案
為應對以上大數據分析領域的挑戰與瓶頸,虎牙大數據團隊不斷探索着更加貼合業務實際需求的解決方案。經過多年發展,沉淀出了直播領域豐富的大數據分析經驗,虎牙大數據團隊在逐步上雲享受雲平台所提供的靈活、開放、豐富的產品及服務的同時,也正與騰訊雲大數據團隊籌划共同推出面向行業的通用開源解決方案,實現了雲廠商和互聯網企業的大數據技術協同,共同推進大數據技術及行業方案的演進。
雲端大數據解決方案
近期虎牙大數據團隊接到的一個突發任務成為其與騰訊雲大數據團隊合作的契機。這個任務需要針對2019年全年數據進行分析,並要在周末兩天內得到分析結果。
按以往處理經驗,在不影響原例行任務運行的前提下,需要對IDC集群進行擴容來滿足突發任務的運行,很明顯對此次時間緊的任務並不是最好的方案(申請新設備耗時久並且也造成長期成本浪費)。
雲端大數據解決方案具有靈活高效,成本節約的顯著特點。不僅可以做到業務持續演進及全球化快速部署,在溫冷數據存儲資源,以及超額冗余計算資源成本節約方面也表現突出。
基於以上優勢,虎牙大數據團隊開始嘗試使用彈性的雲端資源來解決任務。經過多方對於產品性能以及成本的考察,在與騰訊雲大數據團隊進行交流后,共同敲定了雲端大數據解決方案:
首先利用虎牙IDC環境與騰訊雲的專線,將溫冷數據導入到騰訊雲COS中(優先導入了本次分析用到的2019年數據);然后通過騰訊雲彈性MapReduce(EMR)產品創建的Hadoop集群分析已導入到COS中數據。
分析任務最終順利按時輸出結果:20分鍾內便利用EMR創建了上百個節點的分析集群,2小時內部署完成分析任務, 1天半后提前得出分析結果。
分析任務結束后,便對EMR中的臨時分析任務集群進行了銷毀不再產生費用,COS作為溫冷數據統一存儲介質繼續保留支持后續新的緊急任務(只需隨時新建雲端EMR Hadoop集群基於COS中數據進行分析)。
四、大數據雲端化帶來的核心價值
此次虎牙直播大數據解決方案的成功嘗試,最直接體現了大數據分析雲端化的兩點價值:靈活高效以及成本節約。
1. 靈活高效:分鍾級集群創建
得益於騰訊雲EMR產品的存儲與計算分離的特性,數據統一存放於COS中,EMR分析集群在任務需要時隨時創建、在任務執行完畢后銷毀集群,這就是雲端的靈活能力;而在EMR集群創建過程中,上百節點規模集群的創建時間也僅需要10多分鍾,這就是雲端的高效能力。
2. 成本節約:60%柔性成本節約
雲端大數據方案提供兩層的成本節約:
(1)將騰訊雲對象存儲COS作為溫冷數據的統一存儲媒介,替換掉昂貴的IDC設備,這是第一層直接的成本節約。
(2)第二層的成本節約來源於EMR靈活架構的使用,EMR分析集群能直接分析COS中的數據,使得我們能夠按需創建及銷毀集群,不用長期維持冗余設備,非常契合突發任務的場景。
結合EMR產品以往客戶經驗來看,會帶來高達60%的柔性成本節約。
五、雲端數據架構的優勢
雲廠商在雲端提供了豐富的大數據產品和服務,涵蓋從大數據基礎設施、全鏈路數據工具鏈、領域數據價值應用在內的各個環節。
基於雲端的開放大數據技術和產品,企業用戶可以快速構建遷移企業數據架構,甚至把已有大數據架構無縫整合到雲端。
得益於雲端的海量存儲/計算設施及雲廠商在大數據開放技術領域的大規模投入,雲端大數據產品和服務呈現出以下幾個特點:
雲端大數據基礎設施產品以其技術開放性、全鏈路覆蓋、靈活性獲得了互聯網企業數據IT團隊的一致認可,越來越多的企業也逐步意識到雲廠商雄厚技術保障所帶來的隱性價值認同。借助於雲端大數據基礎設施進行以數據驅動的業務創新、運營創新已成為新一代互聯網企業的業界共識和主流趨勢。
虎牙與騰訊雲EMR產品的合作很好地詮釋了這一趨勢,互利共贏,釋放多元數據價值。騰訊雲大數據團隊將不斷打磨產品,探索惠及更多行業場景的雲端實踐之路。