
Benchmark成绩是幻觉
过去一年,GUI Agent的评测分数一路飙升,"全自动办公"似乎触手可及。但UniPat AI用SaaS-Bench撕碎了这个幻觉:23个真实SaaS系统、106个任务、六大专业领域,全部在Docker中本地部署,保留完整的前后端逻辑和业务数据。93.4%的任务跨越至少两个应用,最长操作轨迹超300步。这才是真实办公的样子。
最强模型也"全军覆没"
结果极其残酷。Claude Opus 4.7的检查点分数43.9%,端到端完全通过分数仅3.8%——106个任务只完整走完4个。Kimi K2.5和Gemini 3.1 Pro的完全通过分数为零。Agent能推进部分中间环节,但几乎没有能力将完整长程工作流走完。多跑三次提升约8个百分点,但远非解决方案。
四种结构性失败
SaaS-Bench暴露了Agent的四大致命缺陷。第一,任务越长越做不对,通过率随执行呈不可逆下降曲线。第二,一步错步步错——一个3%权重的错误节点导致下游30%的分数损失。第三,做完不检查,Agent在意图层面认为成功,验证器在状态层面发现失败,缺少严谨的反思闭环。第四,同一任务三次运行分数从0到0.68剧烈波动,路径依赖让长程执行变成赌博。
底层问题
这四种失败指向同一个事实:当前Agent缺少对持久状态的有效推理能力,缺少操作后的闭环验证机制,缺少从错误中恢复的能力。这不是模型变大或加几个工程模块能解决的,而是当前范式的天花板——模型无法像人一样"心里有数"。
SaaS要为Agent重做
SaaS-Bench揭示的不只是Agent的短板,也是当前软件形态的保质期。今天的SaaS为人类设计——菜单、按钮、表单服务于人的眼睛和手指。但当Agent成为主要用户,这些界面就变成累赘。未来不是让Agent学会操作人类的软件,而是软件本身要为Agent重新设计。
京东JoyInside提出AI World:让硬件像人一样主动融入物理世界,服务家庭生活!
Oracle XStream CDC实测:37000 TPS下性能影响全面评估!
Zig创建者怒斥AI代码是"垃圾":开源项目集体向AI编程说不!
面壁智能三值量化突破:6倍省显存,600亿参数模型装进手机!
Waymo无人车再陷积水困境,特斯拉FSD却越开越像老司机!
DeepSeek省钱神器Reasonix:缓存命中99.82%,4亿token账单直降80%!
SillyTavern角色卡:AI时代闷声发财的隐秘赛道,利润率超80%!
DeepSeek对标Claude Code组建Harness团队:模型之外,控制层决胜!
微软叫停内部Claude Code:一场"用不起"背后的三重困境!
华为具身大脑一号位创业,用认知神经科学重做机器人大脑!