首页 > 都市言情 > 都大学了,小学系统才来?

都大学了,小学系统才来? 第404节

  初春时节,春寒料峭,两个人都穿着长裤,陈林倒是早就察觉了。

  但是沈妍似乎完全没有在意。

  从刚才开始就一直保持着这个姿势。

  全神贯注地听陈林讲解。

  陈林也没有刻意躲开。

  反正又不是什么大不了的事。

  “我大概理解了。“

  沈妍的声音把陈林的注意力拉了回来。

  她转过头。

  目光和陈林对上。

  距离很近。

  近到陈林能看清她眼睛里自己的倒影。

  还有那若有若无的淡淡香味。

  清幽的那种。

  和云清家里闻到的完全不一样。

  “但是有一个地方我还是不太明白。“

  沈妍没有注意到陈林的走神。

  她指着屏幕上的某一行公式:

  “这里的梯度回传。“

  “你在文档里写的是用PPO进行优化。“

  “但PPO本身是一个强化学习算法。“

  “它和我们现在要做的监督学习任务......“

  “怎么结合起来?“

  陈林收回心神。

  看向她指的那行公式。

  “这是一个好问题。“

  他说:

  “传统的PPO确实主要用在强化学习场景里。“

  “但我们可以把NDP的发育过程本身看作一个'决策序列'。“

  他拿起旁边的笔。

  在草稿纸上画了一个简单的示意图。

  “你看。“

  “每一步发育,都是一个决策。“

  “比如'这个节点要不要复制'、'这条边的权重是多少'......“

  “这些都可以看作是'动作'。“

  沈妍若有所思地点了点头。

  “所以......“

  她顺着陈林的思路往下想:

  “发育完成后模型的表现,就是'奖励'?“

  “没错。“

  陈林赞许地看了她一眼:

  “你理解得很快。“

  沈妍的耳尖微微泛红。

  但表情依然认真。

  “那PPO的优势函数怎么定义?“

  她继续追问:

  “传统的PPO用GAE(广义优势估计)。“

  “但在NDP的场景下......“

  “似乎不太适用?“

  陈林笑了笑。

  这正是他在文档里重点阐述的创新点之一。

  “所以我改进了一下。“

  他在草稿纸上写下一个新的公式。

  “传统的GAE需要对每一步的奖励进行估计。“

  “但NDP的发育过程是离散的,而且每一步的贡献很难单独量化。“

  “所以我换了一种思路。“

  他指着公式:

  “不再试图估计每一步的贡献。“

  “而是把整个发育过程看作一个整体。“

  “用最终的模型表现作为唯一的奖励信号。“

  “然后用一种类似于'信用分配'的机制,把这个奖励回传给每一步的决策。“

  沈妍盯着那个公式看了好一会儿。

  眼睛越来越亮。

  “我懂了!“

  她的语气里带着几分兴奋:

  “这有点像......把NDP的整个发育过程当作一个RNN来处理?“

  “每一步的'隐状态'就是当前网络的拓扑结构和节点嵌入。“

  “最后一步的输出就是最终生成的模型。“

  “然后用BPTT(时间反向传播)的思路来更新参数!“

  陈林听到这话。

  微微有些惊讶。

  沈妍的理解能力确实很强。

  她虽然不是计算机专业的。

  但这几个月自学下来,进步非常快。

  刚才那个类比,甚至连陈林自己都没有想到过。

  但仔细一想,确实很贴切。

  “可以这么理解。“

  陈林点了点头:

  “虽然实现细节上有一些区别。“

  “但核心思路是一样的。“

  沈妍满意地点了点头。

  她把陈林刚才的讲解记到自己的笔记本上。

  字迹工整,一丝不苟。

第三百零七章 约会

  沈妍写完最后一个公式,合上了笔记本。

  陈林也站起身来,伸了个懒腰。

  两个人贴在一起的小腿自然而然地分开了。

  陈林活动了一下肩膀。

  低头看了沈妍一眼。

  她正在整理笔记本和笔。

  一丝不苟的样子。

  陈林忽然开口了。

  “对了。“

  他的语气很随意:

  “明天周六,有没有兴趣出去逛逛?“

  沈妍的动作顿了一下。

  她抬起头。

  看向陈林。

  眼睛里带着一丝疑惑。

  “逛逛?“

首节 上一节 404/463下一节 尾节 目录

上一篇:我在华娱当导演,宠坏天仙白月光

下一篇:返回列表

推荐阅读