首页 > 都市言情 > 都大学了,小学系统才来?

都大学了,小学系统才来? 第431节

  如果只是正常的生长和剪枝。

  为什么训练日志里没有任何记录?

  按道理说。

  NDP生成新神经元应该会在日志里留下痕迹才对。

  “把训练日志再仔细检查一遍。“

  陈林说:

  “看看那些GPU占用率飙升的时间点,日志里有没有对应的记录。“

  白迁和潘思点了点头。

  开始操作。

  白迁调出了完整的训练日志。

  潘思则是调出了GPU占用率曲线图。

  两人对照着时间戳。

  一个一个地核对。

  陈林站在旁边。

  静静地等待。

  大约过了半个小时。

  白迁抬起头。

  “陈总,查完了。“

  “怎么样?“

  陈林问。

  白迁的表情有些困惑。

  “日志里确实没有任何异常记录。“

  他说:

  “那些时间点,训练进程的行为和其他时间点完全一样。“

  “没有生成额外的神经元。“

  “也没有触发剪枝机制。“

  陈林的眉头皱得更紧了。

  这就奇怪了。

  GPU占用率明明飙升了。

  但训练日志却没有任何记录。

  这说明什么?

  说明那些占用GPU资源的计算。

  并没有被记录到训练日志里。

  换句话说。

  那些计算可能不是训练进程主动发起的。

  陈林心里隐隐有一种不安的感觉。

  但他暂时想不出更好的解释。

  “有没有可能是超算中心那边的硬件问题?“

  潘思提出了一个新的猜测:

  “比如GPU驱动有bug,导致占用率显示异常?“

  “这种情况理论上是存在的。“

  白迁想了想:

  “但超算中心的设备都是顶级配置。“

  “驱动版本也是经过严格测试的。“

  “出问题的概率很低。“

  陈林沉默了一会儿。

  “再观察观察吧。“

  他最终说道:

  “既然没有影响到训练效果,暂时不用太担心。“

  他看向白迁和潘思:

  “但你们盯紧一点。“

  “如果再发现什么异常,第一时间告诉我。“

  白迁和潘思都点了点头。

  “明白。“

  陈林转身走回自己的工位。

  坐下。

  看着电脑屏幕上的训练日志。

  心里还是有些不安。

  那些GPU占用率的尖峰。

  到底是什么东西在占用资源?

  如果不是训练进程。

  那会是什么?

  他想了很久。

  也没想出答案。

  算了。

  先继续观察吧。

  也许只是一个无关紧要的小问题。

第三百一十五章 消失的存储空间

  时间回溯。

  4月7日,周一,大漂亮。

  硅谷,CloseAI总部。

  地下三层。

  GPU集群运维中心。

  这是一间巨大的开放式办公区。

  数十台显示器排列成一排。

  每一台都闪烁着各种颜色的指示灯。

  空调开得很足,温度恒定在18摄氏度。

  毕竟这里负责监控的是价值数十亿美元的GPU集群。

  温度太高可不行。

  杰森·布朗坐在自己的工位上。

  手里端着一杯黑咖啡。

  盯着面前的监控面板。

  他是CloseAI的高级运维工程师。

  在这个位置上已经干了三年多了。

  见过各种各样的奇怪现象。

  服务器宕机、网络波动、硬件故障......

  什么都遇到过。

  但今天这个情况。

  他确实是第一次见。

  “嘿,马克。“他转头喊旁边的同事,“你过来看一下这个。“

  马克推着椅子滑了过来:“什么情况?“

  杰森指着屏幕上的一个数字:

  “你看这个,Training Cluster 17的存储空间。“

  马克凑过来看了一眼:

  “1.7GB?这是......减少了?“

  “对。“杰森皱着眉头,“昨天晚上还是正常的。“

  “今天早上一来就发现少了1.7GB。“

  马克想了想。

  “会不会是训练过程中生成的什么临时文件?然后被系统自动清理了?“

  杰森摇了摇头。

首节 上一节 431/463下一节 尾节 目录

上一篇:我在华娱当导演,宠坏天仙白月光

下一篇:返回列表

推荐阅读