首页 > 都市言情 > 都大学了,小学系统才来?

都大学了,小学系统才来? 第395节

  有算力在手,做大模型的门槛就低很多。

  别人要为GPU发愁。

  超算中心直接躺在算力堆上。

  想怎么玩就怎么玩。

  “试试看吧。“

  他说:

  “反正免费的。“

  “不用白不用。“

  “好!“

  李羽桐应了一声。

  开始按照文档接入YH-30B的API。

  操作很简单。

  几分钟就搞定了。

  “接好了。“

  李羽桐说:

  “师兄,用什么任务测试?“

  甄逸飞想了想。

  “用我那个知识推理的benchmark吧。“

  他说:

  “正好手边有现成的数据。“

  这个benchmark是甄逸飞自己搭建的。

  专门用来测试大模型的知识推理能力。

  包含了逻辑推理、数学计算、常识推理等多个子任务。

  难度不低。

  很多开源模型在这个benchmark上的表现都不太理想。

  甄逸飞自己测过很多次了。

  对各种模型的表现心里都有数。

  Qwen-32B大概能到71%左右。

  DS-33B稍微差一点,70%不到。

  Llama-30B就更拉了,65%左右。

  这已经是同等参数量级下最好的开源模型了。

  李羽桐点了点头。

  开始跑测试。

  甄逸飞继续看自己的论文。

  嗯......

  还是看不下去。

  他索性开始刷手机。

  反正等结果也要一段时间。

  摸鱼摸得理直气壮。

  大约过了半个小时。

  “师兄!“

  李羽桐的声音突然提高了八度。

  甄逸飞吓了一跳。

  手机差点掉地上。

  “怎么了?“

  他赶紧把手机收起来。

  假装自己一直在认真工作。

  李羽桐没注意到他的小动作。

  她指着屏幕。

  脸上的表情有些古怪。

  像是看到了什么不可思议的东西。

  “你看这个......“

  甄逸飞凑过去。

  看着屏幕上的测试结果。

  然后他愣住了。

  彻底愣住了。

  YH-30B在知识推理benchmark上的得分是——

  78.4%。

  这个数字意味着什么?

  甄逸飞太清楚了。

  他之前用同样的benchmark测试过很多模型。

  Qwen-32B的得分是71.2%。

  DS-33B的得分是69.8%。

  Llama-30B的得分是65.3%。

  这些都是同等参数量级下最好的开源模型了。

  业内公认的第一梯队。

  而这个YH-30B......

  78.4%?

  直接碾压了所有同级别选手?

  领先了七八个百分点?

  “不会吧......“

  甄逸飞喃喃道。

  他揉了揉眼睛。

  确认自己没有看错。

  78.4%。

  白纸黑字。

  清清楚楚。

  “再跑一遍。“

  他说:

  “可能是数据波动。“

  李羽桐点了点头。

  重新跑了一遍测试。

  两个人都盯着屏幕。

  大气都不敢出。

  结果出来了。

  78.6%。

  比刚才还高了0.2个百分点。

  甄逸飞沉默了。

  这不是波动。

  这是真实的。

  真实到有点吓人的程度。

  “我再换几个子任务单独测一下。“

  他说着,自己动手操作起来。

  接下来的一个小时。

  甄逸飞用不同的子任务对YH-30B进行了详细测试。

  每测一个。

  他的脸色就变一分。

  逻辑推理:比Qwen-32B高9个百分点。

  数学计算:比DS-33B高12个百分点。

  常识推理:比Llama-30B高8个百分点。

首节 上一节 395/463下一节 尾节 目录

上一篇:我在华娱当导演,宠坏天仙白月光

下一篇:返回列表

推荐阅读