都大学了,小学系统才来? 第335节
行吧。
老板发红包,自己抢得最少。
这很微信。
群里已经开始刷屏了。
孙宇:【谢谢陈总!!!】
云清:【谢谢老板!新年发大财!】
潘思:【感谢陈总的红包!】
白迁:【谢谢陈总!】
沈妍:【谢谢】
陈林扫了一眼,没有再看。
他退出微信,靠在沙发上,开始思考一个问题。
一个他最近一直在琢磨的问题。
开源。
准确地说,是要不要把自己研究出的新算法框架开源。
这个问题,其实从两三个月之前,他就在想了。
只是当时连1.5B的模型模型还没训练完,谈这个为时尚早。
现在YanHai-30B已经训练完成了。
评测结果也出来了。
碾压同级别开源模型,逼近顶尖闭源模型,这还是没有训练更大参数量的情况下。
这个成绩,已经足以证明新架构的价值。
那么问题来了。
这套架构,到底要不要公开?
陈林在心里默默权衡着。
开源,有开源的道理。
人工智能这个领域,从很早以前开始,就有着非常浓厚的开源传统。
这一波大模型的爆发,源头是什么?
是谷歌公司在2017年发表的那篇著名论文。
《Attention Is All You Need》。
那篇论文提出了Transformer架构。
现在市面上几乎所有的主流大模型,都是在Transformer架构的基础上发展而来的。
GPT、Claude、Gemini、Grok......
甚至包括华夏这边的一众大模型。
本质上都是Transformer的变种。
谷歌当年把这篇论文公开发表了。
全世界的研究者都可以学习、改进、应用。
然后就有了后来的这一切。
再往前追溯。
各种深度学习、机器学习的算法。
线性回归、逻辑回归、支持向量机、全连接神经网络、卷积神经网络、循环神经网络、......
每一次重大突破,都是以论文的形式公开发表的。
全世界的从业者和学者一起研究、学习、改进。
可以说,最近二十年人工智能的飞速发展,和开源的传统有着密不可分的关系。
如果没有这种开放共享的精神,AI不可能发展得这么快。
从这个角度来说,自己也应该把新架构开源。
回馈这个领域。
推动整个行业的进步。
但是不开源,也有不开源的道理。
目前全世界大模型都用的是transformer架构。
所以关键就在算力上。
而华夏在算力上被限制。
算力的瓶颈直接导致华夏在大模型训练方面处于劣势。
人工智能的业内人士都很清楚。
哪个公司拥有恩威达的高性能卡多,就能训练更大参数量的模型,模型的迭代速度也更快。
而模型的参数量大、迭代快,用户使用模型的体验就好。
最广为人知的就是贾斯克的XAI公司。
贾斯克在前年声称搞了一个十万块H100 GPU的超级计算集群。
凭借着这个恐怖的算力,XAI这个后入局的公司,在不到两年的时间里就跻身了最先进模型的梯队。
Grok从1.0到去年下半年的4.x,模型效果的提升速度极为惊人。
这就是算力的力量。
而华夏这边呢?
受制于算力不足。
同样的时间,大漂亮国的公司可以训练好几个版本的模型。
华夏这边可能连一个版本都训练不完。
还要绞尽脑汁地想出各种工程上技巧去节省算力。
差距就是这么来的。
但是如果陈林选择不开源自己的新架构呢?
那情况就不一样了。
他设计的这套新架构,核心优势就是效率高。
同样的算力,能训练出效果更好的模型。
或者反过来说达到同样的效果,需要的算力更少。
这意味着什么?
意味着可以用算法上的先进,来弥补算力上的劣势。
就像YanHai-30B一样。
只有300亿参数,却能和那些千亿参数的模型打得有来有回。
如果把这套架构保密那这个优势就是华夏独有的。
大漂亮国那边复制不了。
这对于华夏在AI领域追赶甚至反超,意义重大。
陈林越想,越觉得这个问题很复杂。
开源,是AI领域的传统,是推动行业进步的重要力量。
不开源,是保护国家利益,是在竞争中保持优势。
他一时间也拿不定主意。
“陈林!“
老妈的声音从厨房那边传来。
“扶你外公过来吃饺子了!“
陈林回过神来。
算了。
这种事情牵扯的方面太多了。
不是三言两语能想清楚的。
先放一放吧。
好好过年。
他站起身,朝厨房的方向走去。
厨房那边热气腾腾的。
第一锅饺子已经出锅了。
大姨端着一个大盘子,把煮好的饺子一个个夹出来。
饺子白白胖胖的,皮薄馅大。
光是看着就让人食指大动。
“外公外婆先吃!“
老妈林晓琪在旁边吆喝着。
陈林走到外公身边。
老爸陈弦已经在那里了。
上一篇:我在华娱当导演,宠坏天仙白月光
下一篇:返回列表
