AI当CEO大赛：海外模型赚千万，DeepSeek跑了3次全破产

Viking / 2026-06-30 15:0221484

CEO-Bench做了一个很有意思的测试：给AI大模型100万美元初始资金，让它运营一家模拟初创公司500天，看最后剩下多少钱。

微信图片_2026-06-30_145122_002.png

近日测试成绩终于出炉，13个智能体参赛，结果相当扎心。

五个模型跑了3次，3次全破产——Grok 4.20平均只活了28天，DeepSeek V4 Pro活了114天，Gemini 3 Flash和GLM 5.1也没撑过160天，Claude Haiku 4.5也是3次全破产。

再加上Kimi K2.6破产1次、GPT-5.5破产2次，整个测试里接近一半的运行以破产收场。

更尴尬的是，一个不涉及任何AI的规则基线，就是按固定逻辑执行决策的简单程序，最终拿到了1576万美元，赢了10个AI模型。

也就是说，你花大价钱调用的智能体，还不如几条if-else规则管钱管得好。

微信图片_2026-06-30_145248_581.png

当然头部模型确实厉害。Claude Fable 5最佳运行赚到4715万美元，Claude Opus 4.8拿到2778万，GPT-5.5拿到2130万。但只有这三个的最佳成绩超过了100万初始资金，而且Claude Fable 5是唯一一个两次运行都高于初始资金的模型，稳定性远超其他。

GPT-5.5的策略很激进。3次运行里2次破产，但赚到2130万的那次确实猛——它会根据市场变化反复调整获客、研发、定价，工具使用分布均匀，89%的研发预算精准投向客户群定向改进。高风险高回报，赌对了就是第三名，赌错了直接归零。

Claude Opus 4.8的路子与GPT-5.5完全不同。它的最佳运行中途客户数跌到0，靠控制成本硬撑到了2778万。

微信图片_2026-06-30_145339_310.png

有意思的是AI操作频率跟结果没什么关系。GLM 5.1平均每周操作51.5次，3次全破产。Claude Fable 5平均每周只操作15.4次，却跑出了最高分。忙着折腾不如折腾对了。

头部模型还有个别的模型做不到的事——它们会自己写代码辅助决策。Claude Opus 4.8在运行中写代码模拟不同场景的现金流，GPT-5.5写代码从谈判数据里推断客户的价格偏好。这已经不是调参数了，是AI给自己造工具。

但整体来看，AI当CEO这件事目前还很不靠谱。多数模型连500天都活不过去，距离AI真的能掌舵一家公司，路还很长。

发表评论注册|登录