谷歌MIT联手：首个智能体Scaling Law出炉，盲目堆Agent性能暴跌70%

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新

AI圈里一直流传着一句信条：“More agents is all you need”（智能体越多越好）。

大家的直觉很简单：一个诸葛亮不够，那就找三个臭皮匠来凑。甚至有人觉得，只要我把一堆AI拉进一个群里，让它们互相讨论、投票，无论什么任务都能做得更好

但现在，Google Research、DeepMind联合MIT的一项重磅研究，给这个想法泼了一盆冷水

paper：

https://arxiv.org/pdf/2512.08296

他们做了一场史上最严苛的压力测试，结果发现了一个反直觉的真相：

盲目组建AI团队，不仅不能提升能力，甚至可能把原本聪明的模型搞成“人工智障”，性能暴跌70%。

为此，研究团队总结出了一套 “智能体Scaling Law”，这是第一套能帮你算清楚“到底该单干还是群殴”的数学公式

为了搞清楚AI协作的真相，研究人员没有只测一种模型，而是把市面上最强的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂台

他们设计了180种不同的配置，不仅有单打独斗的（单智能体），还有四种不同的“组队模式”：

1.各自为战：大家各干各的，最后凑一起。2.中心化指挥：有个“经理”负责分派任务和检查。3.去中心化讨论：大家围成一圈开会，互相辩论。4.混合模式：既有经理，底下人也能私聊

为了公平，不管是单人还是团队，手里能花的钱（Token预算）和能用的工具都是一样的

测试结果出来后，呈现出了极端的两极分化，就像两个平行宇宙。

宇宙一：人多力量大

在金融分析（Finance-Agent）这类任务里，多智能体简直杀疯了

因为金融任务可以拆得非常细，比如A查财报，B看K线，C做风控，最后汇总。在这种场景下，找个“经理”来指挥（中心化架构），性能直接比单干提升了80.9%

宇宙二：人多即地狱

但在“规划任务”（PlanCraft，比如在Minecraft里合成物品）里，情况完全失控

这类任务讲究逻辑的连贯性：你得先砍树，才能做木板，再做工作台。步骤环环相扣

结果研究发现，只要引入协作，所有多智能体架构全部崩盘因为大家七嘴八舌地讨论打断了推理的连贯性，把宝贵的计算资源都浪费在了沟通上。比起单干，性能最高暴跌了70%

还有个中间派：

模拟真实职场打工（Workbench）的任务，结果显示，这就属于费力不讨好。折腾半天组建团队，最好的结果也就提升了5.7%，甚至有的架构还倒退了

为什么会出现这种差异？研究团队通过那套Scaling Law公式，像法医一样解剖了背后的原因，找到了三条铁律：

铁律1：工具越重，开会越废（工具-协作权衡）

想象一下，如果一个工匠要用16种不同的锤子和锯子干活

单干时，他拿起工具就干。但如果是个团队，每换个工具都要跟队友确认、同步信息

数据显示，任务需要的工具越多，协作带来的内耗就越严重。在这种“重工具”场景下，把资源花在沟通上简直是浪费，不如留给单人去思考

铁律2：高手不需要队友（能力饱和）

研究划定了一条残酷的“红线”：45%。

如果一个单智能体自己做这道题的准确率已经超过了45%，那么给它加队友往往是负收益

就像学霸做题，自己做能得90分。非要给他配几个60分的队友在旁边指指点点，最后成绩反而会被拉低。

铁律3：没经理的团队是灾难（错误放大）

这是最吓人的数据

如果你让一群AI各自跑结果（独立架构），却没人负责检查，错误率会被放大17.2倍！

因为一个AI犯了错，没纠正，另一个AI接着错，最后错上加错

只有引入“中心化”的经理角色，强制进行检查验证，才能把错误控制住（只放大4.4倍）

结论：算好这笔账

这项研究最大的贡献，就是告诉大家：别迷信人海战术了

Google和MIT把这些发现浓缩成了一个预测模型。现在，只要你输入三个数据：

1. 模型本身聪不聪明？

2. 任务要用多少工具？

3. 这任务能不能拆解？

这个公式就能以87%的准确率告诉你：该单干，还是该组队

简单来说，这就是一本AI算力经济学：在预算有限的情况下，把算力花在让一个大脑深思熟虑上，往往比让一群大脑开会吵架更划算——除非，你真的有一个好经理和容易拆分的任务

--end--

最后记得⭐️我，每天都在更新：欢迎点赞转发推荐评论，别忘了关注我

【纠错】【责任编辑:xiaoxuebiye】

深度观察

新华全媒头条丨中国互联网“反内卷”需要动真格的了