Benchmark成绩是幻觉 过去一年,GUI Agent的评测分数一路飙升,"全自动办公"似乎触手可及。但UniPat AI用SaaS-Bench撕碎了这个幻觉:23个真实SaaS系统、106个任务、六大专业领域,全部在Docker中本地部署,保留完整的前后端逻辑和业务数据。93.4%的任务跨越至少两个应用,最长操作轨迹超300步。这才是真实办公的样子。 最强模型也"全军覆没" 结果极其残酷。Claude Opus 4.7的检查点分数43.9%,端到端完
主流大模型在中国传统术数选择题上集体"翻车",准确率仅23%-40%,几乎接近随机猜测。但Tianfu Agent系统一举将准确率提升至50%,逼近人类Top20选手的53.5%。 该系统的核心在于将Coding Agent的工具化范式引入术数领域。面对200多个专业工具,团队设计了四级可见性控制机制,按"可理解性"和"可穷举性"动态管理工具集,避免模型选择过载。 针对术数规则繁杂且流派矛盾的问题,系统将每条规则封装为带元数据的可调用函数