【文章推薦】Rancher 和知乎超大規模多集群管理聯合實踐

原文：Rancher 和知乎超大規模多集群管理聯合實踐

源起知乎是中文互聯網高質量的問答社區，每天有上千萬用戶在知乎分享知識經驗和見解，找到自己的答案。為配合不同階段的業務發展需求，知乎容器平台也在不斷演進提升，目前幾乎所有的業務都運行在容器上。這兩年知乎開始使用 Rancher 管理 Kubernetes 集群，集群規模逐步達到近萬節點。本文將介紹 Rancher 如何針對大規模集群進行性能調優，最終訪問速度提升，達到頁面訪問體驗可用的狀態 ...

2022-03-17 12:06 0 652 推薦指數：

查看詳情

阿里巴巴超大規模中台型團隊研發提效實踐

簡介： ALPD及雲效DevOps平台在超大規模中台型團隊如何進行研發效能提升中台型團隊效能提升遇到的挑戰及應對策略 “數字供應鏈中台”支撐了阿里巴巴旗經濟體30余個“大業務”，100余個“二級業務”；該中台團隊由1000多人組成，分為26個域；來自不同行業的需求會被不同的行業PD ...

Pandas處理超大規模數據

對於超大規模的csv文件，我們無法一下將其讀入內存當中，只能分塊一部分一部分的進行讀取；首先進行如下操作： import pandas as pd reader = pd.read_csv('data/servicelogs', iterator=True)分塊，每一塊是一個chunk ...

DeepSpeed超大規模模型訓練工具

DeepSpeed超大規模模型訓練工具 2021年 2 月份發布了 DeepSpeed。這是一個開源深度學習訓練優化庫，包含的一個新的顯存優化技術—— ZeRO（零冗余優化器），通過擴大規模，提升速度，控制成本，提升可用性，極大地推進了大模型訓練能力。DeepSpeed 已經幫助研究人員，開發 ...

如何利用Flink實現超大規模用戶行為分析

如何利用Flink實現超大規模用戶行為分析各位晚上好，首先感謝大家參與我的這次主題分享，同時也感謝 InfoQ AI 前線組織這次瀚思科技主題月！瀚思科技成立於 2014 年，按行業划分我們是一家安全公司。但和大家熟知的賣殺毒軟件 ...

打造雲原生大型分布式監控系統(四): Kvass+Thanos 監控超大規模容器集群

概述繼上一篇 Thanos 部署與實踐發布半年多之后，隨着技術的發展，本系列又迎來了一次更新。本文將介紹如何結合 Kvass 與 Thanos，來更好的實現大規模容器集群場景下的監控。有 Thanos 不夠嗎 ? 有同學可能會問，Thanos 不就是為了解決 Prometheus ...

Dubbo 3.0 前瞻系列 | 2020雙11，Dubbo3.0 在考拉的超大規模實踐

一在考拉大規模落地 Dubbo3.0 的技術分享，系統介紹了 Dubbo3.0 在性能、穩定性上對考拉業 ...

阿里雲上萬個 Kubernetes 集群大規模管理實踐

作者 | 湯志敏，阿里雲容器服務高級技術專家在 2019 年雙11 中，容器服務 ACK 支撐了阿里巴巴內部核心系統容器化和阿里雲的雲產品本身，也將阿里巴巴多年的大規模容器技術以產品化的能力輸出給眾多圍繞雙11 的生態公司。通過支撐來自全球各行各業的容器雲，容器服務沉淀了支持單元化 ...

JuiceFS 如何幫助趣頭條超大規模 HDFS 降負載

作者簡介王振華，趣頭條大數據總監，趣頭條大數據負責人。王海勝，趣頭條大數據工程師，10 年互聯網工作經驗，曾在 eBay、唯品會等公司從事大數據開發相關工作，有豐富的大數據落地經驗。高昌健，Juicedata 解決方案架構師，十年互聯網行業從業經歷，曾在知乎、即刻、小紅書多個 ...

原文：Rancher 和知乎超大規模多集群管理聯合實踐

相關推薦

相關標簽