原文:tensorflow-记一次global step相关问题的排查

在调试tensorflow分布式训练代码时,遇到一个诡异的错误:Global step should be created to use StopAtStepHook. 错误发生在以下代码处: 报错显示:RunTimeError:Global step should be created to use StopAtStepHook. 看似是因为没有定义global step。但代码里其实定义了, ...

2018-11-28 16:57 0 2472 推荐指数:

查看详情

一次排查CPU高的问题

背景 将log4j.xml的日志级别从error调整为info后,进行压测发现CPU占用很高达到了90%多(之前也就是50%,60%的样子). 问题排查 排查思路: 看进程中的线程到底执行的是什么,导致CPU占用较高. 1. 使用top命令查看到底是哪个应用 ...

Fri Nov 05 23:34:00 CST 2021 0 435
一次redis key丢失的问题排查

最近测试环境的redis经常性发生某些key丢失的问题,最终的找到的问题让人大吃一惊。 复盘一下步骤: 1、发现问题 不知道从某天开始,后台经常报错,原因是某些key丢失,一开始不在意,以为是小bug,后来越来越频繁。 2、检查代码 看看是不是有误删除的情况,这些key的访问范围很小,压根没有删除 ...

Thu Apr 25 22:19:00 CST 2019 0 1424
一次上线部分docker不打日志的问题排查

一次正常的上线,发了几台docker后,却发现有的机器打了info.log里面有日志,有的没有。排查问题开始: 第一:确认这台docker是否有流量进来,确认有流量进来。 第二:确认这台docker磁盘是否慢了,磁盘没有满。 第三:确认这台docker日志级别,确认 ...

Fri Jul 19 17:26:00 CST 2019 0 442
一次内存持续增长问题排查

一次内存持续增长问题排查 作者:张鑫 发生背景: 测试同学运行AElf单节点过程中,发现节点突然不再出块,经查看日志发现 Worker(交易执行进程) 全部掉线,无法继续执行交易,从而导致节点挂掉。 初步定位问题: 出现这个问题很奇怪,因为节点和所有 Worker 在同一 ...

Thu Oct 18 02:53:00 CST 2018 3 1243
一次Java项目死锁问题排查思路

为了提升项目的响应速度,为用户提供更好的体验,原来的DAO使用的是JdbcTemplate,最近开发了一个有点类似Hibernate的组件,用来支持DAO对象的缓存。在数据插入和数据删除时,多次使用锁 ...

Mon Nov 23 18:37:00 CST 2020 1 425
一次慢sql问题排查过程

背景说明   组织架构被拆分为多个微服务 需求: 一个输入框 查询 前后模糊查询 人员信息(工号、姓名),前后模糊查询 单位名称。 跨库平级查询!! ...

Tue Dec 21 00:56:00 CST 2021 0 1023
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM