10月18日,微信群中流传着一段对话,内容是某头部大厂的大模型训练被实习生入侵,注入了破坏代码,导致其训练成果不可靠,可能需要重新训练。据称遭到入侵的代码注入了8000多张卡,带来的损失可能超过千万美元。
该入侵的实习生(下文称之为T)毕业于国内顶尖的两所大学之一,曾频频出现在媒体上,分享其对大模型训练的观点和看法,属于十分活跃的“大模型明星员工”。
在入侵过程中,“T利用了HF的漏洞,在公司的共享模型里写入破坏代码,随机sleep,随机梯度数值,导致模型的训练效果忽高忽低,无法产生预期的训练效果,而且AML团队无法核查原因”。(根据聊天记录原文整理)
-----
1、sleep是大模型训练中的训练策略,目的在于:缓解过拟合: 通过在训练过程中周期性地停止对模型参数的更新,可以防止模型过度拟合训练数据,从而提高模型在未见过的数据上的泛化能力。
加速收敛:在某些情况下,通过适当的睡眠设置,可以帮助模型跳出局部最优解,更快地收敛到全局最优解。
节省计算资源。
2、梯度指的是大模型训练中的最优解。它在大模型训练中是一个非常重要的概念。你可以把它想象成一座山上的路径,梯度就是告诉你往哪个方向走才能最快下山(也就是找到最优解)。梯度数值随机,会让训练陷入迷茫之中,无法取得预期效果。
3、AML团队,全称是“Algorithm Monitoring Team”,即算法监测团队。这个团队的主要职责是:
监控模型训练过程: 跟踪模型在训练过程中的表现,包括损失函数、准确率、召回率等指标。
评估模型性能:对训练好的模型进行全面的评估,确保其符合预期的性能要求。
发现并解决问题:在模型训练过程中发现并解决各种问题,例如过拟合、欠拟合、梯度消失等。
保证模型质量:保证模型的质量和可靠性,确保其能够在实际应用中发挥作用。
-------------
为了解释清楚这三个概念,我就用了这么长的篇幅。因此,我认为这个事情的真实概率很大,普通人即使编造,也不知道这么细节的东西。
后续:
我询问了熟悉大模型行业的朋友,他们说该厂的大模型效果在最近一两个月没有出现明显的问题。但该厂也很久没向外界通报大模型训练的进展,公司高层很可能会倾向于掩盖此次入侵。
同时,该实习生的聊天工具也正常在线,貌似不像传言中说的那么严重。(入侵造成公司千万美元损失,都涉及刑事犯罪了)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有