他翻到第二页。
第二页是几行代码,看起来像是某种优化算法的实现。
但让陆沉舟震惊的不是代码本身,而是代码下面的一句话:
“让梯度流动,让损失流动,让智慧流动。——这就是通往涌现的道路。”
陆沉舟猛地站起来。
“梯度流动……损失流动……”
他突然明白了那封邮件的含义。
传统的深度学习训练,梯度是”静止”的。每个节点计算自己的梯度,然后同步汇总,再统一更新模型参数。这个过程叫做”梯度同步”。
但如果让梯度”流动”起来呢?
如果每个节点在计算完自己的梯度后,不等待同步,而是立刻用它来更新局部模型,然后再把更新后的梯度传递给下一个节点呢?
“异步……异步梯度更新……”陆沉舟的眼睛越来越亮。
他快步走到白板前,拿起笔,开始疯狂地写公式。
如果他的推测没错,这种”流动式梯度更新”可以大幅减少节点之间的通信开销,从而让分布式训练的效率提升数倍。
“这……这可能改变一切……”陆沉舟放下笔,看着白板上的公式。
他不知道那封邮件是谁发的,也不知道这些信息是从哪里来的。
但他知道,这些信息,将改变大模型训练的格局。
“不管你是谁,”陆沉舟对着空气说,“谢谢你。”
窗外,东方的天际开始泛起鱼肚白。
新的一天,即将开始。
六、星火燎原
三个月后。
2021年6月,华京。
星辰科技的服务器集群,已经从28张A100扩展到了112张。
“流动式训练”架构,经过无数次的调试和优化,终于成熟了。
陆沉舟站在服务器前,看着那些闪烁着蓝光的机器,心中充满了骄傲。
“陆总,”小张走过来,手里拿着一份报告,“第三轮测试结果出来了。”
“Loss是多少?”
“2。1147。”小张的声音里带着一丝激动,“比三个月前下降了50%以上。”
陆沉舟接过报告,仔细地看着每一个数字。
Loss曲线逐渐趋于平稳,说明模型正在稳定地学习。
“涌现测试呢?”他问。
“做了。”小张打开笔记本电脑,“我们在几个典型的推理任务上测试了模型。结果……”
“结果怎么样?”
“结果超出预期。”小张的眼中闪烁着光芒,“当参数规模超过800亿时,模型开始展现出明显的’思维链’能力。它可以解决简单的数学问题,可以进行逻辑推理,甚至可以……”
“可以什么?”
“可以写简单的代码。”小张说,“我们给它一个描述,它就能生成对应的Python代码。虽然还不是完全正确,但已经让我们看到了希望。”
陆沉舟沉默了。