AI 任务可靠性评测台

为什么普通 AI demo 不够？

演示里「能聊」往往只解决第一印象；工作里要的是能不能验收。

会回答，不等于能交付

对话流畅，不代表输出能进表格、能对接下游、能过格式关。

通过率高，不等于不用人工复核

表面全绿，仍可能在事实、口径、合规上翻车——尤其是对外材料。

跑通一次，不等于稳定可靠

没有同一批题、同一套记录，就无法谈「可复现」和「可对比」。

看起来像对了，不等于满足约束

真实任务常有禁词、必备词、固定格式——缺一样就是不合格交付。

我测的不是模型名次，而是工作流靠不靠谱

你可以把「工作流」理解成：接到题目之后，这一套做法（怎么调模型、怎么交卷）能不能 repeatedly 过关。我们不排「哪个模型聊天第一」，只问在固定题目和固定设定下，端到端有没有结构性翻车。

当前公开、完整跑通实验的，只有「直接一问一答」这条基线（direct）。代码里虽然留了检索增强、分步规划、人工把关等位置，但它们还没有作为成套流水线做完对照——请勿理解成「这几种都已经和 direct 比完一轮」。

方法与题目类型

三类题目

信息抽取 extraction

从招聘说明、会议纪要、反馈里整理要点，偏「从材料里捞出该交的信息」。

改写 rewrite

在约束下改简历、邮件、对内说明，偏「交出去能用的文体」。

问答 qa

按制度或常见问答回答，有的题要求严格可解析格式（如固定 JSON）。

当前评测分三层

每一层都不是「最终判决书」，而是一步一步把问题收窄。

规则检查

人话：像质检员按清单勾：格式对不对、该出现的词有没有、不能出现的词有没有踩、要不要 JSON 能解析。过了这一关，才谈内容好不好。

代理指标

人话：用特别简单的统计，粗看一下覆盖度、是否空输出等。不等于语义对错，实现也很粗，不能当排名依据。

初版失败归因

人话：按规则把失败粗略归几类，方便统计和复盘。不是智能诊断，更不是最终定性。

以上三层都不等于最终语义评测；要谈「内容是否事实正确」，必须另设人工或更严协议。

结果概览

如何理解这些数字？

「规则通过」主要指：结构与基础要求上没有明显失败（格式、必备词、禁词、可解析性等）。
不等于最终语义上的「高质量」或「可直接对外发布」。
不代表可以跳过人工复核——尤其在合规、数字口径、对外承诺场景。

加载数据中…

总体

指标	数值

按题目类型

类型	题数	规则通过	规则未通过

按难度

难度	题数	规则通过	规则未通过

规则细项（各有多少题通过）

检查项	通过题数	未通过题数

代理指标（粗参考，非语义判决）

指标说明	值

图表解读

以下为同一次跑批自动生成；每张图附「能说明什么」与「别读过头」。

**能说明什么：**在初版、偏规则的失败分类里，本次样本都落在「未命中更高优先级失败」一档。
**别读过头：**不等于「从没犯错」或事实一定正确，更不覆盖语义幻觉。

**能说明什么：**各难度在**规则质检**上的通过比例（样本：易 3 / 中 6 / 难 3）。
**别读过头：**不等于难题在「内容正确性」上天然更安全。

**能说明什么：**三类题型在规则层是否过关。
**别读过头：**题型不同风险点不同，不能因条形图齐平就认为可无差别上线。

**能说明什么：**若干代理指标的均值，用于粗扫一眼。
**别读过头：**不是综合质量分；某些条实现很粗，零值也不等于模型不合格。

这个项目的实际意义是什么？

哪些可以先用 AI 试

规则清晰、格式固定、后果可控的任务，更适合先小范围试跑，用同一套题反复验。

哪些不能只看表面通过率

涉合规、对外口径、数字与引用时，「全绿」也可能是假象——必须保留人工闸门。

为什么更接近真实工作决策

关心的不是单次聊天爽感，而是「这套做法能不能反复交卷、哪里要加检索或复核」。

和常见 AI 评测有什么不同？

不是模型榜单

目的不是给模型排座次，而是看固定工作方式在题上的稳定性。

不是抽象刷榜题

题目尽量贴近办公与知识场景，而不是为了难而难的孤立题。

更接近真实办公任务

抽取、改写、制度问答等，都是日常会碰到的活。

不把「通过」说成「高质量」

主动写明规则层与语义层的空隙，避免把展示写满。

局限与下一步

当前完整跑批仍以 direct 为主；多工作流对照需后续补齐。
样本量仍小，结论不能外推到所有业务。
代理指标仍粗，仅作辅助扫视。
失败归因仍是初版规则映射，复杂场景需迭代。
下一步才系统补：多工作流对比、人工评审、更强语义质量判断——本页不预设已完成。