原文:[源码解析] PyTorch 分布式之弹性训练(6)---监控/容错

源码解析 PyTorch 分布式之弹性训练 监控 容错 目录 源码解析 PyTorch 分布式之弹性训练 监控 容错 x 摘要 x 总体逻辑 . Node集群角度 . Agent总体逻辑图 . 监控角度 x 多进程 . 启动workers . . start processes . . RunResult . TE 使用 . PContext . MultiprocessContext . . ...

2021-12-29 18:02 0 1799 推荐指数:

查看详情

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM