大模型竞争焦点转向“智能”而非“规模”
随着大型人工智能模型的迅速进步,许多人开始关注是否存在一种衡量AI“智能水平”的具体指标。近日,清华大学的科研团队在《自然·机器智能》杂志上公开了他们关于“大模型密度法则”的相关研究。该法则指出,大语言模型的能力密度呈指数倍速上升——在2023年2月至2025年4月间,能力密度大约每3.5个月实现翻倍。
众所周知,计算机芯片领域有“摩尔定律”,即单位芯片的晶体管数每隔一段时间就会翻倍。芯片之所以越来越强大,原因在于极小的面积容纳了极多的计算单元。清华大学计算机科学与技术系的肖朝军认为,AI大模型的发展也应有类似的衡量维度,这就是所谓的“能力密度”。
这项研究假设,如果采用一样的工艺并进行充分训练,不同大小的模型其能力密度是相同的。芯片行业通过提升集成度推动了设备的小型化和普惠化,AI模型则靠不断提升能力密度,朝着高效发展迈进。
过去,业界谈及“规模法则”时,通常关注模型参数总量,参数越多模型就越“聪明”,就像关注运动员的体重一样。而在“密度法则”视角下,更重要的是单位参数所蕴含的智能水平。肖朝军表示,就像评价武术高手时,看的是招式中的“功力”,而不是单纯的肌肉量。
研究团队系统研究了近年发布的51个开源AI模型,并发现自2023年来模型能力密度的提升速度显著加快,平均每3.5个月翻倍。随着数据、算力和算法的同步进步,未来可用更少参数实现等同的智能输出。
此外,团队还推导出一些结论。例如,同级能力的模型推理成本将随时间不断降低,且能力密度正加速提升。ChatGPT面世之前,能力密度翻倍周期约为4.8个月;而ChatGPT发布后缩减至3.2个月,增幅提升了50%。这表明,随着技术迭代和开源生态繁荣,能力密度增长速度明显加快。
肖朝军进一步指出,能力密度的提升不仅意味着大模型更具智能,还能降低对算力资源的需求和使用成本。这一规律的确立,为学术界和产业界带来新的创新方向,有助于推动AI技术的广泛普及。
从实际应用层面来看,密度法则的确立预示着AI正变得更加易用。肖朝军介绍,随着芯片的集成度不断提高(摩尔定律),以及模型能力密度持续增强(密度法则),原本只能部署在云端的大型模型,未来有望在终端设备甚至芯片上直接运行。从而提升响应速度、加强隐私保护,让智能服务更加丰富。
肖朝军举例道,以智能汽车为例,过去大模型仅能被动执行如“打开车窗”“查询附近餐厅”等指令。而将模型部署到终端后,通过环境感知和意图理解,还能主动整合车内外环境信息,实现多模态融合及自主决策,让智能座舱从被动响应提升到主动服务,为驾驶体验注入更多智慧。
记者 张盖伦





