扩展律(Scaling Law)与模型规模化

张开发
2026/4/13 9:02:34 15 分钟阅读

分享文章

扩展律(Scaling Law)与模型规模化
模化发展另一大定律是扩展律Scaling Law。扩展律是指随着投入算力、数据量、模型参数的增加模型的损失不断下降(精度不断提升。人工智能的“扩展律”对AI模型的发展具有重要意义推动了GenAI的发展和ChatGPT时刻的出现。在规模化发展趋势下模型训练算力需求年均增长 4.6 倍主要源于研发投入扩张年均 2-3 倍及硬件性能提升GPT-4 级别模型训练成本已超数千万美元随着模型算力扩张模型性能提升但边际收益递减。从数据角度大规模预训练驱动数据需求暴增训练数据集规模年均增长 3.5 倍当前最大模型已使用数十万亿Token数据。而公开可用人类文本数据约300万亿Token按当前消耗速度2026‒2032 年将耗尽。随着规模发展AI面临算力高成本、数据耗尽、算法架构停滞不前等问题。近期AI创新突破纷纷围绕通过模型优化、以较小的算力代价和数据依赖获得提升训练方法也从自监督训练向强化学习方法过渡。降低了对数据规模的依赖。可以说强化学习是scaling law的新引擎。因此扩展律开始增加向“后训练“和“推理时计算”拓展的路径不断增加模型的计算体现出从「数据驱动」转向「推理驱动」的特点。同时在大规模预训练中继续提升效率也未停止如混合专家模型MoE的稀疏激活显著降低相同任务所需的实际算力多头潜在注意力(MLA)等方式进行参数合并降低计算需求。

更多文章