原文:我是如何利用Hadoop做大規模日志壓縮的

背景 剛畢業那幾年有幸進入了當時非常熱門的某社交網站,在數據平台部從事大數據開發相關的工作。從日志收集 存儲 數據倉庫建設 數據統計 數據展示都接觸了一遍,比較早的趕上了大數據熱這波浪潮。雖然今天的人工智能的熱度要遠高於大數據,但是大家還是不能否定大數據在人工智能中不可取代的地位。 話回正題,當時遇到了一個需要解決的問題就是如何快速對日志進行壓縮。那時一天的日志量大概是 TB左右,共 種日志,最大 ...

2017-09-27 10:03 2 1392 推薦指數:

查看詳情

用Elasticsearch做大規模數據的多字段、多類型索引檢索

本文同時發布在我的個人博客 之前嘗試了用mysql做大規模數據的檢索優化,可以看到單字段檢索的情況下,是可以通過各種手段做到各種類型索引快速檢索的,那是一種相對簡單的場景。 但是實際應用往往會復雜一些 —— 各類索引(關鍵詞匹配、全文檢索、時間范圍)混合使用,還有排序的需求。這種情況下 ...

Wed Apr 17 00:39:00 CST 2019 1 4682
基於Docker一鍵部署大規模Hadoop集群及設計思路

一、背景: 隨着互聯網的發展、互聯網用戶的增加,互聯網中的數據也急劇膨脹。每天產生的數據量數以萬計,本地文件系統和單機CPU已無法滿足存儲和計算要求。Hadoop分布式文件系統(HDFS)是海量數據存儲的重要技術,它將數據存儲在多個從節點上,對這些節點的硬件資源進行統一管理與分配,並向 ...

Mon Mar 05 02:01:00 CST 2018 0 1342
利用GPGPU計算大規模群落仿真行為

0x00 前言 在今年6月的Unite Europe 2017大會上 Unity 的CTO Joachim Ante演示了未來Unity新的編程特性——C# Job系統,它提供了編寫多線程代碼的一種既簡單又安全的方法。Joachim通過一個大規模群落行為仿真的演示,向我們展現了最新的Job系統 ...

Sun Aug 13 14:56:00 CST 2017 24 3981
利用GPU實現大規模動畫角色的渲染

,最后我們必須找到其他的解決方案。那么本文就來聊聊利用GPU實現角色的動畫效果,減少CPU端的蒙皮開銷 ...

Mon Jul 31 16:00:00 CST 2017 15 12477
Scheduled SQL: SLS 大規模日志上的全局分析與調度

簡介: 本文總結了大規模日志全局分析的需求,討論SLS上現有的典型分析方案,並延伸到 SLS 原生數據處理方案,介紹 Schedueld SQL 功能與最佳實踐。 大規模日志全局分析的需求 ...

Thu Jun 10 22:37:00 CST 2021 0 207
如何利用Flink實現超大規模用戶行為分析

如何利用Flink實現超大規模用戶行為分析 各位晚上好,首先感謝大家參與我的這次主題分享,同時也感謝 InfoQ AI 前線組織這次瀚思科技主題月! 瀚思科技成立於 2014 年,按行業划分我們是一家安全公司。但和大家熟知的賣殺毒軟件 ...

Tue Sep 04 03:03:00 CST 2018 0 1123
大規模Hadoop集群實踐:騰訊分布式數據倉庫(TDW)

TDW 是騰訊最大的離線數據處理平台。本文主要從需求、挑戰、方案和未來計划等方面,介紹了TDW在建設單個大規模集群中采取的 JobTracker 分散化和 NameNode 高可用兩個優化方案。 TDW(Tencent distributed Data Warehouse,騰訊分布式 ...

Thu Aug 21 22:58:00 CST 2014 0 3155
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM