原文:Rancher 和知乎超大規模多集群管理聯合實踐

源起 知乎是中文互聯網高質量的問答社區,每天有上千萬用戶在知乎分享知識 經驗和見解,找到自己的答案。為配合不同階段的業務發展需求,知乎容器平台也在不斷演進 提升,目前幾乎所有的業務都運行在容器上。 這兩年知乎開始使用 Rancher 管理 Kubernetes 集群,集群規模逐步達到近萬節點。本文將介紹 Rancher 如何針對大規模集群進行性能調優,最終訪問速度提升 ,達到頁面訪問體驗可用的狀態 ...

2022-03-17 12:06 0 652 推薦指數:

查看詳情

阿里巴巴超大規模中台型團隊研發提效實踐

簡介: ALPD及雲效DevOps平台在超大規模中台型團隊如何進行研發效能提升 中台型團隊效能提升遇到的挑戰及應對策略 “數字供應鏈中台”支撐了阿里巴巴旗經濟體30余個“大業務”,100余個“二級業務”;該中台團隊由1000多人組成,分為26個域;來自不同行業的需求會被不同的行業PD ...

Mon Feb 01 18:45:00 CST 2021 0 348
Pandas處理超大規模數據

對於超大規模的csv文件,我們無法一下將其讀入內存當中,只能分塊一部分一部分的進行讀取; 首先進行如下操作: import pandas as pd reader = pd.read_csv('data/servicelogs', iterator=True)分塊,每一塊是一個chunk ...

Sun Jun 23 21:06:00 CST 2019 0 716
DeepSpeed超大規模模型訓練工具

DeepSpeed超大規模模型訓練工具 2021年 2 月份發布了 DeepSpeed。這是一個開源深度學習訓練優化庫,包含的一個新的顯存優化技術—— ZeRO(零冗余優化器),通過擴大規模,提升速度,控制成本,提升可用性,極大地推進了大模型訓練能力。DeepSpeed 已經幫助研究人員,開發 ...

Tue Sep 28 14:20:00 CST 2021 0 169
如何利用Flink實現超大規模用戶行為分析

如何利用Flink實現超大規模用戶行為分析 各位晚上好,首先感謝大家參與我的這次主題分享,同時也感謝 InfoQ AI 前線組織這次瀚思科技主題月! 瀚思科技成立於 2014 年,按行業划分我們是一家安全公司。但和大家熟知的賣殺毒軟件 ...

Tue Sep 04 03:03:00 CST 2018 0 1123
阿里雲上萬個 Kubernetes 集群大規模管理實踐

作者 | 湯志敏,阿里雲容器服務高級技術專家 在 2019 年 雙11 中,容器服務 ACK 支撐了阿里巴巴內部核心系統容器化和阿里雲的雲產品本身,也將阿里巴巴多年的大規模容器技術以產品化的能力輸出給眾多圍繞 雙11 的生態公司。通過支撐來自全球各行各業的容器雲,容器服務沉淀了支持單元化 ...

Wed Dec 04 18:02:00 CST 2019 0 264
JuiceFS 如何幫助趣頭條超大規模 HDFS 降負載

作者簡介 王振華,趣頭條大數據總監,趣頭條大數據負責人。 王海勝,趣頭條大數據工程師,10 年互聯網工作經驗,曾在 eBay、唯品會等公司從事大數據開發相關工作,有豐富的大數據落地經驗。 高昌健,Juicedata 解決方案架構師,十年互聯網行業從業經歷,曾在乎、即刻、小紅書多個 ...

Wed Oct 27 02:04:00 CST 2021 0 281
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM