首页 > 都市言情 > 都大学了,小学系统才来?

都大学了,小学系统才来? 第220节

  白迁输入了一个更长的prompt,大概有500个tokens,然后让模型继续生成2000个tokens的内容。

  新模型的输出依然流畅、连贯,逻辑严密,几乎看不出任何“注意力崩塌“的迹象。

  而当同样的任务交给Llama-1.5B的时候......

  “您看这里。“白迁指着屏幕,“到了1500 tokens左右,它就开始胡言乱语了。“

  屏幕上,Llama-1.5B生成的文本,从某个节点开始,突然变得语无伦次,出现了大量重复的短语,甚至还有一些毫无意义的乱码。

  这就是典型的“注意力崩塌“现象。

  当输入序列过长时,传统Transformer架构的注意力机制会失效,导致模型“忘记“前面的内容,开始鬼打墙。

  而新架构......

  完全没有这个问题!

  陈林看着这些对比测试的结果,心里简直乐开了花。

  他忍不住脱口而出:

  “卧槽!没想到这个架构是真的牛逼!“

  说完,他转过头,兴奋地看向白迁:

  “白博士,等30B模型训练出来,是不是能吊打市面上所有的开源模型了!“

  白迁闻言,却没有跟着兴奋。

  他推了推眼镜,语气冷静地说道:

  “陈总,别浪。“

  “现在才5B tokens,还早着呢。“

  “我们至少要等到15B tokens的时候,拿到稳定的benchmark数据,才能下结论。“

  陈林愣了一下,随即笑了。

  “行,听你的,继续观察。“

  虽然嘴上这么说,但陈林心里那股兴奋劲儿,是怎么都压不住的。

  他太清楚这意味着什么了。

  如果这个新架构真的如测试结果显示的那样强大......

  那演海公司,将会在AI大模型这条赛道上,拥有一个绝对的、碾压性的技术优势!

  ......

  12月19日,周五,上午十点。

  训练进度:10B tokens。

  白迁和陈林坐在电脑前,正在查看最新的评估报告。

  这份报告,是白迁昨天晚上设置的自动化测试脚本生成的。

  它包含了几个业界通用的benchmark(基准测试):

  MMLU(Massive Multitask Language Understanding,大规模多任务语言理解):测试模型在各种学科知识上的表现。

  GSM8K:小学数学应用题测试,考察模型的数学推理能力。

  HumanEval:代码生成测试,给出函数描述,让模型生成可执行的代码。

  白迁点开报告,屏幕上出现了一张详细的对比表格:

  text

  | Benchmark | YanHai-1.5B (10B tokens)| Llama-1.5B | Llama-7B |

  |-----------|------------------------|------------|----------|

  | MMLU | 58.3%| 42.1%| 62.5%|

  | GSM8K | 34.7%| 11.2%| 47.3%|

  | HumanEval | 23.5%| 8.1%| 29.8%|

  看到这张表格,陈林整个人都愣住了。

  “这......“

  他揉了揉眼睛,怀疑自己看错了。

  “白博士,这数据......是真的?“

  白迁点了点头,脸上露出满意的笑容:

  “千真万确。我昨晚跑了三遍,结果都差不多。“

  陈林深吸了一口气,努力让自己平静下来。

  但心里的震撼,是怎么都掩饰不住的。

  MMLU 58.3分!

  要知道,Llama-1.5B才42.1分!

  而Llama-7B也不过62.5分!

  这意味着什么?

  这意味着,演海公司用1.5B参数训练出来的模型,在多任务语言理解上,已经逼近了7B参数的Llama!

  参数量只有对方的五分之一,效果却能打个平手!

  这简直就是魔法!

  陈林的目光继续往下看。

  GSM8K,34.7%准确率!

  Llama-1.5B只有11.2%!

  这是三倍的差距!

  HumanEval,23.5%通过率!

  Llama-1.5B只有8.1%!

  这是接近三倍的差距!

  陈林靠在椅背上,脑子里一片空白。

  他万万没想到,自己推导出来的这个新架构,居然能强到这种程度。

  就在这时,坐在一旁的潘思,忽然开口了。

  他推了推眼镜,语气里带着几分复杂:

  “白博士,恭喜你。“

  “这个新架构的潜力,确实超出了我的预期。“

  白迁转过头,看着潘思,笑了笑:

  “潘博士,你这话听着怎么有点酸溜溜的?“

  潘思苦笑了一声:

  “确实有点酸。“

  他顿了顿,接着说道:

  “我这边的30B模型,已经训练到100B tokens了。“

  “虽然效果达到了业界的平均水平,但和你这个1.5B的小怪物比起来......“

  潘思摇了摇头,没有继续说下去。

  站在一旁的孙宇,听到这话,脸上露出了失落的神色。

  “潘博士,那我们这段时间......是不是白忙活了?“

  “不是白忙活。“

  白迁立刻接话道。

  他看着孙宇,认真地说道:

  “孙哥,你可别这么想。“

  “潘博士那边的30B模型,能达到业界平均水平,已经很不错了。“

  “你要知道,那些大厂训练模型的时候,用的算力资源比我们多得多。“

  “我们只有16张A100,而人家动不动就是上千张GPU集群。“

  “而且,训练大模型不光是看算力,还要看推理资源。“

  “潘博士那边用来做评估测试的,也是咱们这16张A100。这些GPU既要分出一部分来跑推理,又要继续训练,资源本来就紧张。“

  “所以,30B模型的真实性能,很可能还没有完全发挥出来。“

  “能在这种条件下达到平均水平,足以说明潘博士的数据清洗和对齐思路,是非常有效的。“

  听到白迁这番话,孙宇的脸色好看了一些。

  潘思也点了点头:

  “谢谢你,白博士。“

  他顿了顿,眼神变得坚定起来:

  “不过,我也必须承认,我之前对新算法架构的反对,确实有些武断了。“

  “我以为,改进现有架构,通过数据和工程优化来提升效果,是最稳妥的路线。“

  “但我忽略了一点......“

  潘思看向陈林,语气里带着几分敬佩:

  “陈总的数学水平,完全可以在推演新框架的时候,发挥出巨大的作用。“

  “这是我之前没有想到的。“

首节 上一节 220/463下一节 尾节 目录

上一篇:我在华娱当导演,宠坏天仙白月光

下一篇:返回列表

推荐阅读