都大学了,小学系统才来? 第199节
【坐等陈林把整个AI行业卷死!】
网络上的讨论如火如荼,但陈林本人,却已经不再关注这些了。
此刻的他,正坐在演海公司的办公室里,全神贯注地盯着电脑屏幕。
屏幕上,密密麻麻全是关于神经网络和Transformer架构的技术文档。
陈林已经花了小半年时间,自学人工智能大模型的知识。
而现在,他惊喜地发现,这些知识,居然可以和【小小数学家】的能力结合起来!
以前,陈林在解决客户问题的时候,往往需要沈妍或者黄依依这些学应用数学的人,先把工程问题“翻译“成纯数学问题,他才能用【小小数学家】的能力去解决。
但现在,在人工智能神经网络这个领域,陈林发现自己已经不需要“翻译“了。
他可以直接理解那些神经网络的结构和原理,可以直接思考如何从数学角度去优化这些结构。
而一旦他开始思考,【小小数学家】的能力就会自动启动,在他脑海中生成完整的解答过程。
这种感觉,简直太爽了!
陈林越想越兴奋,恨不得立刻就开始研究。
不过,他还是让自己冷静下来,继续把剩下的一些技术文档看完。
当前主流的Transformer架构,是一种基于自注意力机制的特征提取网络结构,主要用于自然语言处理领域。
自注意力机制可以对输入序列中的每个位置进行注意力计算,从而获取全局上下文信息。
Transformer的核心,就是self-attention机制。
它能够整句处理自然语言,因此训练效率较高,可以并行化处理。
但Transformer也有明显的缺点——
计算复杂度高,时间复杂度是O(N?·d),其中N是序列长度,d是token嵌入的维度。
这个时间复杂度,对长序列非常不友好。
举个例子,如果要处理一篇一万字的文章,那么计算量就是一万的平方,也就是一亿次计算。
如果要处理十万字的长文本呢?
那就是一百亿次计算。
这对算力的消耗,简直是天文数字。
所以,业界一直在寻找能够降低Transformer计算复杂度的方法。
而陈林的研究目标,就是希望结合线性模型和注意力机制的优势,让模型可以进行并行计算,在取得Transformer相近效果的情况下,改进计算复杂度。
这个目标听起来很简单,但实现起来,难度极大。
因为这相当于要重新设计一种全新的神经网络架构。
不过,陈林有信心。
因为他有【小小数学家】。
只要他能把问题想清楚,把目标定明确,剩下的数学推导不成问题。
想到这里,陈林深吸了一口气,调整了一下工作计划。
从今天开始,他每天上午会继续学习人工智能大模型相关的知识,顺便和潘思、白迁讨论一下他们的工作进展。
下午,则进行2小时40分钟的数学研究。
这个时间安排,和之前准备数学大会演讲的时候一样。
事实证明,这种节奏对陈林来说是最合适的。
既能保证学习和研究的效率,又不会让【小小数学家】的能力过度消耗,导致自己直接睡死过去。
陈林看了一眼时间,上午十点。
潘思和白迁应该都已经在公司了。
他站起身,来到潘思和白迁的办公桌旁边。
潘思正坐在电脑前,盯着屏幕上密密麻麻的代码。
白迁则坐在另一边,面前摊着一堆草稿纸,上面写满了数学公式。
“陈总。“潘思抬起头,冲陈林点了点头。
白迁也停下手里的笔,推了推眼镜:“陈总,有事吗?“
“我就是过来看看你们的进展。“陈林拉了把椅子坐下,“潘博士,你那边怎么样了?“
潘思闻言,脸上露出一丝兴奋的神色。
“陈总,我这边进展还不错!“
他转过电脑屏幕,让陈林能看到上面的内容。
“我已经把数据清洗的流程搭建好了,现在沈妍和孙宇正在帮忙做数据标注。“
“目前我们已经清洗了大概两千万条高质量的中英文语料。“
“按照这个进度,再有两周时间,应该就能积累到五千万条左右。“
“到那时候,我们就可以开始第一轮的预训练了。“
陈林听到这话,满意地点了点头。
“很好。服务器那边呢?方案想好了吗?“
“想好了。“潘思笑着说道,“我和白博士商量了一下,决定采用租云服务器的方案。“
“项目起步阶段,我们训练验证的都是小参数量的模型,模型参数控制在30B以内。“
“这样的话,租用云服务器就够了,每个月成本在10万美元左右。“
“虽然价格不算便宜,但因为我和白博士可以共用算力资源,所以其实还算划算。“
陈林点了点头。
10万美元一个月,折合人民币差不多70万。
对于演海公司现在的财力来说,完全可以承受。
“那就按这个方案执行吧。“陈林说道,“需要的费用,你们统计好以后报给黄助理,她会安排打款。“
“好的,陈总。“潘思应道。
第二百零九章 全新的架构
陈林又转头看向白迁,白迁虽然没说,但陈林也知道对方心里肯定有些急躁。
虽然上个礼拜陈林已经说好了自己会在一个月之内研究出新的算法,但是白迁毕竟和自己刚认识,之前对陈林的了解也只欲局限于新闻上的消息,没有信心是可以理解的。
陈林安慰白迁道:
“白博士,你现在可以先设计一下新算法落地以及验证可行性的工作流。“
陈林顿了顿,接着说道:
“我之前跟你说过,我会在一个月内,研究出一套全新的AI算法。“
“到时候,你可以基于我的算法,来设计新的模型架构,然后进行训练。“
“到时候沈妍也会从潘博士那边过来帮你一起做这个事情。“
白迁听到这话,眼睛立刻亮了起来。
“陈总,您的意思是......您已经开始研究新算法了?“
“对。“陈林点了点头,“从今天开始,我每天下午会花时间专门进行数学研究。“
“目标,就是找到一种比Transformer更优的神经网络架构的数学表达。“
白迁闻言,整个人都激动起来。
“太好了,陈总!“
“如果您真的能研究出新算法,那我这边的工作,就有方向了!“
陈林笑了笑,没有多说什么。
他站起身,拍了拍白迁的肩膀:
“加油吧,我也得去工作了。“
说完,陈林便离开了会议室,回到了自己的办公桌前。
他看了一眼时间,上午十一点。
还有一个小时就到中午了。
陈林决定,先把上午剩下的时间,用来继续学习一些技术细节。
下午,再开始正式的数学研究。
......
下午一点。
陈林先处理一些杂事。
他打开电脑,登录邮箱,看了一眼最近收到的邮件。
大部分都是一些客户的咨询邮件,孙宇已经帮他筛选过了,把那些明显不靠谱的都过滤掉了。
剩下的这些,基本都是真正有需求的客户。
陈林注意到一份邮件,是科大的唐学兵教授写的。
邮件里说自从上次陈林帮助燕南和科大的联合科研组解决了固态电池研究的数学瓶颈以后,科研组的工作进展很快,新一代的固态电池的样品已经进入了测试阶段。
电池的测试,是一个相当繁琐且较为漫长的过程。
从过充电,过放电,外部短路,强制放电等电学测试,到挤压,针刺,冲击,振动,跌落等机械测试.....需要花费大量的时间。
这次发邮件给演海公司是因为项目组在进行测试的同时还在进行着别的研究,研究过程中的一个化学材料学的新问题,需要依靠陈林的数学能力来解决。
如果陈林有时间的话,请回复一下邮件,项目组的几位负责人会通过微信联系陈林,约时间线下详细沟通。
陈林想了一下,回复邮件说自己目前再进行比较重要的数学研究,自己会尽快完成研究,到时候陈林会联系唐学兵教授。
上一篇:我在华娱当导演,宠坏天仙白月光
下一篇:返回列表
