原文:Rancher 和知乎超大规模多集群管理联合实践

源起 知乎是中文互联网高质量的问答社区,每天有上千万用户在知乎分享知识 经验和见解,找到自己的答案。为配合不同阶段的业务发展需求,知乎容器平台也在不断演进 提升,目前几乎所有的业务都运行在容器上。 这两年知乎开始使用 Rancher 管理 Kubernetes 集群,集群规模逐步达到近万节点。本文将介绍 Rancher 如何针对大规模集群进行性能调优,最终访问速度提升 ,达到页面访问体验可用的状态 ...

2022-03-17 12:06 0 652 推荐指数:

查看详情

阿里巴巴超大规模中台型团队研发提效实践

简介: ALPD及云效DevOps平台在超大规模中台型团队如何进行研发效能提升 中台型团队效能提升遇到的挑战及应对策略 “数字供应链中台”支撑了阿里巴巴旗经济体30余个“大业务”,100余个“二级业务”;该中台团队由1000多人组成,分为26个域;来自不同行业的需求会被不同的行业PD ...

Mon Feb 01 18:45:00 CST 2021 0 348
Pandas处理超大规模数据

对于超大规模的csv文件,我们无法一下将其读入内存当中,只能分块一部分一部分的进行读取; 首先进行如下操作: import pandas as pd reader = pd.read_csv('data/servicelogs', iterator=True)分块,每一块是一个chunk ...

Sun Jun 23 21:06:00 CST 2019 0 716
DeepSpeed超大规模模型训练工具

DeepSpeed超大规模模型训练工具 2021年 2 月份发布了 DeepSpeed。这是一个开源深度学习训练优化库,包含的一个新的显存优化技术—— ZeRO(零冗余优化器),通过扩大规模,提升速度,控制成本,提升可用性,极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员,开发 ...

Tue Sep 28 14:20:00 CST 2021 0 169
如何利用Flink实现超大规模用户行为分析

如何利用Flink实现超大规模用户行为分析 各位晚上好,首先感谢大家参与我的这次主题分享,同时也感谢 InfoQ AI 前线组织这次瀚思科技主题月! 瀚思科技成立于 2014 年,按行业划分我们是一家安全公司。但和大家熟知的卖杀毒软件 ...

Tue Sep 04 03:03:00 CST 2018 0 1123
阿里云上万个 Kubernetes 集群大规模管理实践

作者 | 汤志敏,阿里云容器服务高级技术专家 在 2019 年 双11 中,容器服务 ACK 支撑了阿里巴巴内部核心系统容器化和阿里云的云产品本身,也将阿里巴巴多年的大规模容器技术以产品化的能力输出给众多围绕 双11 的生态公司。通过支撑来自全球各行各业的容器云,容器服务沉淀了支持单元化 ...

Wed Dec 04 18:02:00 CST 2019 0 264
JuiceFS 如何帮助趣头条超大规模 HDFS 降负载

作者简介 王振华,趣头条大数据总监,趣头条大数据负责人。 王海胜,趣头条大数据工程师,10 年互联网工作经验,曾在 eBay、唯品会等公司从事大数据开发相关工作,有丰富的大数据落地经验。 高昌健,Juicedata 解决方案架构师,十年互联网行业从业经历,曾在乎、即刻、小红书多个 ...

Wed Oct 27 02:04:00 CST 2021 0 281
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM