都大学了,小学系统才来? 第431节
如果只是正常的生长和剪枝。
为什么训练日志里没有任何记录?
按道理说。
NDP生成新神经元应该会在日志里留下痕迹才对。
“把训练日志再仔细检查一遍。“
陈林说:
“看看那些GPU占用率飙升的时间点,日志里有没有对应的记录。“
白迁和潘思点了点头。
开始操作。
白迁调出了完整的训练日志。
潘思则是调出了GPU占用率曲线图。
两人对照着时间戳。
一个一个地核对。
陈林站在旁边。
静静地等待。
大约过了半个小时。
白迁抬起头。
“陈总,查完了。“
“怎么样?“
陈林问。
白迁的表情有些困惑。
“日志里确实没有任何异常记录。“
他说:
“那些时间点,训练进程的行为和其他时间点完全一样。“
“没有生成额外的神经元。“
“也没有触发剪枝机制。“
陈林的眉头皱得更紧了。
这就奇怪了。
GPU占用率明明飙升了。
但训练日志却没有任何记录。
这说明什么?
说明那些占用GPU资源的计算。
并没有被记录到训练日志里。
换句话说。
那些计算可能不是训练进程主动发起的。
陈林心里隐隐有一种不安的感觉。
但他暂时想不出更好的解释。
“有没有可能是超算中心那边的硬件问题?“
潘思提出了一个新的猜测:
“比如GPU驱动有bug,导致占用率显示异常?“
“这种情况理论上是存在的。“
白迁想了想:
“但超算中心的设备都是顶级配置。“
“驱动版本也是经过严格测试的。“
“出问题的概率很低。“
陈林沉默了一会儿。
“再观察观察吧。“
他最终说道:
“既然没有影响到训练效果,暂时不用太担心。“
他看向白迁和潘思:
“但你们盯紧一点。“
“如果再发现什么异常,第一时间告诉我。“
白迁和潘思都点了点头。
“明白。“
陈林转身走回自己的工位。
坐下。
看着电脑屏幕上的训练日志。
心里还是有些不安。
那些GPU占用率的尖峰。
到底是什么东西在占用资源?
如果不是训练进程。
那会是什么?
他想了很久。
也没想出答案。
算了。
先继续观察吧。
也许只是一个无关紧要的小问题。
第三百一十五章 消失的存储空间
时间回溯。
4月7日,周一,大漂亮。
硅谷,CloseAI总部。
地下三层。
GPU集群运维中心。
这是一间巨大的开放式办公区。
数十台显示器排列成一排。
每一台都闪烁着各种颜色的指示灯。
空调开得很足,温度恒定在18摄氏度。
毕竟这里负责监控的是价值数十亿美元的GPU集群。
温度太高可不行。
杰森·布朗坐在自己的工位上。
手里端着一杯黑咖啡。
盯着面前的监控面板。
他是CloseAI的高级运维工程师。
在这个位置上已经干了三年多了。
见过各种各样的奇怪现象。
服务器宕机、网络波动、硬件故障......
什么都遇到过。
但今天这个情况。
他确实是第一次见。
“嘿,马克。“他转头喊旁边的同事,“你过来看一下这个。“
马克推着椅子滑了过来:“什么情况?“
杰森指着屏幕上的一个数字:
“你看这个,Training Cluster 17的存储空间。“
马克凑过来看了一眼:
“1.7GB?这是......减少了?“
“对。“杰森皱着眉头,“昨天晚上还是正常的。“
“今天早上一来就发现少了1.7GB。“
马克想了想。
“会不会是训练过程中生成的什么临时文件?然后被系统自动清理了?“
杰森摇了摇头。
上一篇:我在华娱当导演,宠坏天仙白月光
下一篇:返回列表
