CEO-Bench做了一个很有意思的测试:给AI大模型100万美元初始资金,让它运营一家模拟初创公司500天,看最后剩下多少钱。

近日测试成绩终于出炉,13个智能体参赛,结果相当扎心。
五个模型跑了3次,3次全破产——Grok 4.20平均只活了28天,DeepSeek V4 Pro活了114天,Gemini 3 Flash和GLM 5.1也没撑过160天,Claude Haiku 4.5也是3次全破产。

再加上Kimi K2.6破产1次、GPT-5.5破产2次,整个测试里接近一半的运行以破产收场。
更尴尬的是,一个不涉及任何AI的规则基线,就是按固定逻辑执行决策的简单程序,最终拿到了1576万美元,赢了10个AI模型。
也就是说,你花大价钱调用的智能体,还不如几条if-else规则管钱管得好。

当然头部模型确实厉害。Claude Fable 5最佳运行赚到4715万美元,Claude Opus 4.8拿到2778万,GPT-5.5拿到2130万。但只有这三个的最佳成绩超过了100万初始资金,而且Claude Fable 5是唯一一个两次运行都高于初始资金的模型,稳定性远超其他。
GPT-5.5的策略很激进。3次运行里2次破产,但赚到2130万的那次确实猛——它会根据市场变化反复调整获客、研发、定价,工具使用分布均匀,89%的研发预算精准投向客户群定向改进。高风险高回报,赌对了就是第三名,赌错了直接归零。
Claude Opus 4.8的路子与GPT-5.5完全不同。它的最佳运行中途客户数跌到0,靠控制成本硬撑到了2778万。

有意思的是AI操作频率跟结果没什么关系。GLM 5.1平均每周操作51.5次,3次全破产。Claude Fable 5平均每周只操作15.4次,却跑出了最高分。忙着折腾不如折腾对了。
头部模型还有个别的模型做不到的事——它们会自己写代码辅助决策。Claude Opus 4.8在运行中写代码模拟不同场景的现金流,GPT-5.5写代码从谈判数据里推断客户的价格偏好。这已经不是调参数了,是AI给自己造工具。
但整体来看,AI当CEO这件事目前还很不靠谱。多数模型连500天都活不过去,距离AI真的能掌舵一家公司,路还很长。
AI当CEO大赛:海外模型赚千万,DeepSeek跑了3次全破产
Viking














沪公网安备 31010702005758号
发表评论注册|登录