AI 任务可靠性评测台

不是所有会回答的 AI,都能成为可交付的工作流。

进入项目,查看 AI 在真实办公任务里到底靠不靠谱。

首页 动机 测什么 方法 结果 图表 意义 对比 局限

AI 任务可靠性评测台

把「会说话的 AI」,变成「可以验收的工作流」。

面试官和来访者最常问的是:这项目解决什么问题?——我们做的是一套可重复跑的实验台:用统一题目、统一验收规则、完整运行记录,回答「这一套 AI 工作方式在真实办公题上,能不能稳定交卷」——先谈靠不靠谱,再谈模型厉不厉害。

  • 12 道真实风格题目
  • 离线模拟 / 真实模型双模式
  • 规则检查 + 全程执行记录

为什么普通 AI demo 不够?

演示里「能聊」往往只解决第一印象;工作里要的是能不能验收。

会回答,不等于能交付

对话流畅,不代表输出能进表格、能对接下游、能过格式关。

通过率高,不等于不用人工复核

表面全绿,仍可能在事实、口径、合规上翻车——尤其是对外材料。

跑通一次,不等于稳定可靠

没有同一批题、同一套记录,就无法谈「可复现」和「可对比」。

看起来像对了,不等于满足约束

真实任务常有禁词、必备词、固定格式——缺一样就是不合格交付。

我测的不是模型名次,而是工作流靠不靠谱

你可以把「工作流」理解成:接到题目之后,这一套做法(怎么调模型、怎么交卷)能不能 repeatedly 过关。我们不排「哪个模型聊天第一」,只问在固定题目和固定设定下,端到端有没有结构性翻车。

当前公开、完整跑通实验的,只有「直接一问一答」这条基线(direct)。代码里虽然留了检索增强、分步规划、人工把关等位置,但它们还没有作为成套流水线做完对照——请勿理解成「这几种都已经和 direct 比完一轮」。

方法与题目类型

三类题目

信息抽取 extraction

从招聘说明、会议纪要、反馈里整理要点,偏「从材料里捞出该交的信息」。

改写 rewrite

在约束下改简历、邮件、对内说明,偏「交出去能用的文体」。

问答 qa

按制度或常见问答回答,有的题要求严格可解析格式(如固定 JSON)。

当前评测分三层

每一层都不是「最终判决书」,而是一步一步把问题收窄。

规则检查

人话:像质检员按清单勾:格式对不对、该出现的词有没有、不能出现的词有没有踩、要不要 JSON 能解析。过了这一关,才谈内容好不好。

代理指标

人话:用特别简单的统计,粗看一下覆盖度、是否空输出等。不等于语义对错,实现也很粗,不能当排名依据。

初版失败归因

人话:按规则把失败粗略归几类,方便统计和复盘。不是智能诊断,更不是最终定性。

以上三层都不等于最终语义评测;要谈「内容是否事实正确」,必须另设人工或更严协议。

结果概览

如何理解这些数字?

  • 「规则通过」主要指:结构与基础要求上没有明显失败(格式、必备词、禁词、可解析性等)。
  • 不等于最终语义上的「高质量」或「可直接对外发布」。
  • 不代表可以跳过人工复核——尤其在合规、数字口径、对外承诺场景。

加载数据中…

总体

指标 数值

按题目类型

类型 题数 规则通过 规则未通过

按难度

难度 题数 规则通过 规则未通过

规则细项(各有多少题通过)

检查项 通过题数 未通过题数

代理指标(粗参考,非语义判决)

指标说明 值

图表解读

以下为同一次跑批自动生成;每张图附「能说明什么」与「别读过头」。

能说明什么:在初版、偏规则的失败分类里,本次样本都落在「未命中更高优先级失败」一档。
别读过头:不等于「从没犯错」或事实一定正确,更不覆盖语义幻觉。
能说明什么:各难度在规则质检上的通过比例(样本:易 3 / 中 6 / 难 3)。
别读过头:不等于难题在「内容正确性」上天然更安全。
能说明什么:三类题型在规则层是否过关。
别读过头:题型不同风险点不同,不能因条形图齐平就认为可无差别上线。
能说明什么:若干代理指标的均值,用于粗扫一眼。
别读过头:不是综合质量分;某些条实现很粗,零值也不等于模型不合格。

这个项目的实际意义是什么?

哪些可以先用 AI 试

规则清晰、格式固定、后果可控的任务,更适合先小范围试跑,用同一套题反复验。

哪些不能只看表面通过率

涉合规、对外口径、数字与引用时,「全绿」也可能是假象——必须保留人工闸门。

为什么更接近真实工作决策

关心的不是单次聊天爽感,而是「这套做法能不能反复交卷、哪里要加检索或复核」。

和常见 AI 评测有什么不同?

不是模型榜单

目的不是给模型排座次,而是看固定工作方式在题上的稳定性。

不是抽象刷榜题

题目尽量贴近办公与知识场景,而不是为了难而难的孤立题。

更接近真实办公任务

抽取、改写、制度问答等,都是日常会碰到的活。

不把「通过」说成「高质量」

主动写明规则层与语义层的空隙,避免把展示写满。

局限与下一步

  • 当前完整跑批仍以 direct 为主;多工作流对照需后续补齐。
  • 样本量仍小,结论不能外推到所有业务。
  • 代理指标仍粗,仅作辅助扫视。
  • 失败归因仍是初版规则映射,复杂场景需迭代。
  • 下一步才系统补:多工作流对比、人工评审、更强语义质量判断——本页不预设已完成。

静态展示页 · 数据来自仓库内一次跑批汇总 · 详见 GitHub README