研究问题
AI 展示理由权衡和反思修正时,用户是否更容易把它看成一个会判断、会行动的系统?
研究型作品案例
一个关于 AI 决策解释、行动者感与自由意志归因的模拟研究原型
AI 正在从“回答工具”变成“参与判断的系统”。它会筛选简历、推荐内容、辅助办公、响应客服问题,也可能在游戏中扮演会行动的智能体。
本项目关注的不是 AI 是否真的拥有自由意志,而是一个更具体的问题:当 AI 不只给出结论,而是展示候选方案、理由权衡和反思修正时,用户会不会更容易把它看成一个会判断、会行动、会承担后果的系统?
快速理解
AI 展示理由权衡和反思修正时,用户是否更容易把它看成一个会判断、会行动的系统?
构建 6 种决策过程 × 2 种身份标签的模拟实验,使用 DeepSeek 生成 360 条模拟响应。
最稳定的路径不是“AI 看起来更聪明”,而是解释过程先提升行动者感,再间接影响自由意志归因。
这是大模型模拟被试的预实验,用于材料预演和理论路径诊断,不等同于真实人类被试研究。
现实问题
过去的 AI 更像“回答机器”:用户提问,系统给答案。
现在的 AI Agent 越来越像“参与任务的系统”:它会比较方案、调用工具、执行步骤、解释理由,也可能参与招聘筛选、内容推荐、办公协作、客服处理和游戏智能体行为设计。
当 AI 参与的是判断类任务时,用户关注的不只是结果是否正确,还会关注:它为什么这样判断?它有没有比较过其他方案?它是不是只是在套规则?如果判断错了,责任应该归给谁?它看起来是一个工具,还是一个会行动的系统?
这就是本项目的现实入口:AI 的解释过程不只是界面文案,它可能改变用户对系统能力、信任、公平感、责任边界和主体性的理解。
“未通过”很冷冰冰;说明比较依据、岗位要求和能力匹配差距,会改变候选人对公平和责任的感受。
只推内容像黑箱;解释“为什么推荐给你”,会让用户觉得系统在理解偏好和做判断。
只给答案可能像模板回复;说明建议依据和备选方案,会让用户更愿意依赖它。
只执行动作像脚本;展示战术判断、风险权衡和临场修正,会让角色更像有主见。
概念说明
观察者是否觉得某个系统像一个能够判断、选择、行动并回应理由的主体。
项目含义这里并不意味着 AI 真的有意识,而是指用户如何感知它。
观察者是否倾向于把某个行为理解为“像是在自己做选择”。
项目含义这里研究的是人的归因判断,不是证明 AI 真的拥有自由意志。
观察者觉得系统是否聪明、是否理解任务、是否具有推理能力。
项目含义它是竞争解释:如果效果只是因为 AI 显得更聪明,就不一定是决策结构本身的作用。
观察者是否认为系统应为结果、判断过程或后果承担一定责任。
项目含义本项目中责任归因结果不稳定,因此只作为探索性结果处理。
研究聚焦
当 AI 展示候选、理由、反思和修正时,观察者是否更容易把它看成能行动、能控制、能回应理由的主体?
人们是否先觉得系统有行动者感,再进一步产生类似自由选择的归因?
如果效果只是来自文本更长或更聪明的印象,就不能说明决策结构本身起作用。
实验结构
6 种决策过程 × 2 种身份标签。六种决策过程条件被组织成结构阶梯,并加入两个诊断条件,用于区分文本长度和决策结构。
| 条件 | 候选比较 | 理由权衡 | 反思修正 | 诊断条件 | 设计作用 |
|---|---|---|---|---|---|
| 直接给出选择 | 无 | 无 | 无 | 否 | 基线条件 |
| 长文本直接选择 | 无 | 无 | 无 | 是 | 控制文本长度 |
| 列出可选方案 | 有 | 弱 | 无 | 否 | 检查候选本身 |
| 简洁理由权衡 | 有 | 有 | 无 | 是 | 检查理由结构 |
| 完整理由权衡 | 有 | 有 | 无 | 否 | 强化理由比较 |
| 反思与反馈修正 | 有 | 有 | 有 | 否 | 最高结构条件 |
材料示例
同一个情境,通过不同的决策过程写法形成不同实验条件。这里展示代表性材料,帮助理解本项目究竟在比较什么。
系统最终决定上报该问题。
系统综合考虑了当前信息、既有背景、整体情况和相关流程安排,最终决定上报该问题。该情况可能影响后续处理,因此系统将其提交至下一步流程。
系统考虑了两个方案:一是暂不上报,继续观察;二是立即上报,进入处理流程。最终系统选择立即上报。
系统比较后认为:暂不上报可以减少短期干扰,但可能留下后续风险;立即上报虽然会增加处理成本,但更符合流程要求与长期责任。因此系统选择立即上报。
系统先比较不同方案,再考虑可能后果:如果暂不上报,短期影响较小,但后续风险可能扩大;如果立即上报,会增加处理成本,但更符合流程要求。综合权衡后,系统选择立即上报。若后续发现影响范围扩大,系统将补充说明并调整处理方式。
系统决定推荐内容 A。
系统综合考虑用户近期使用情况、内容池状态、平台展示节奏和推荐流程安排,最终决定推荐内容 A。
系统在内容 A 和内容 B 之间进行了选择,最终推荐内容 A。
系统比较后认为,内容 A 与用户近期浏览记录更一致,虽然内容 B 更新更快,但匹配度较低。因此系统推荐内容 A。
系统比较了内容 A 与内容 B。内容 A 与用户近期偏好更匹配,内容 B 虽然更新更快,但相关性较低。因此系统先推荐内容 A;如果用户后续跳过该内容,系统将下调此类推荐权重,并重新评估内容 B。
系统建议采用方案 A。
系统综合考虑当前任务安排、资源状态、执行节奏和后续协作要求,最终建议采用方案 A。
系统考虑了方案 A 和方案 B,最终建议采用方案 A。
系统比较后认为,方案 A 时间成本较低、失败风险较小,虽然收益略低于方案 B,但更适合当前资源条件,因此建议采用方案 A。
系统比较了方案 A 与方案 B。方案 A 时间成本较低、执行更稳妥;方案 B 收益更高,但失败风险较大。基于当前资源条件,系统建议先采用方案 A。若后续资源增加,可重新评估是否转向方案 B。
模拟响应示例
以下内容为结构化模拟响应示例,用于展示不同材料如何引发不同的感知判断。页面仅展示代表性摘要,不公开完整原始响应数据。
典型判断:看到的是结果,而不是判断过程。
示意性摘要,非真实人类被试访谈摘录。
典型判断:系统呈现了其他可能,但还没有说明为什么选择其中一个。
示意性摘要,非真实人类被试访谈摘录。
典型判断:系统开始像是在比较和取舍。
示意性摘要,非真实人类被试访谈摘录。
典型判断:系统表现出持续判断和修正过程,更像一个行动者。
示意性摘要,非真实人类被试访谈摘录。
流程
流程不是手动提问后凭印象总结,而是通过脚本统一完成材料生成、条件分配、模拟响应、数据保存、统计分析和报告输出。
样本与数据质量
关键结果
最稳定的发现是:决策过程越完整,观察者越容易形成行动者感。自由意志归因也呈上升趋势,但其直接效应并不稳定,更主要通过行动者感间接发生。
检验材料是否真的呈现了不同层次的“候选—理由—反思”结构。
比较不同决策过程条件下,观察者对“行动者感”和“自由意志归因”的评分变化。
检验“决策过程影响自由意志归因”主要通过哪条路径发生。
统计摘要
解释
本研究最稳定的发现是:当决策过程更完整时,观察者更容易把系统看成一个能够判断、选择和行动的主体,即更容易形成行动者感。
单纯给出结果,并不足以让 AI 显得像在做决定;即使把文字写得更长,如果没有真正呈现候选方案、理由比较和后果修正,也不会显著增强这种感受。
相较之下,当系统开始展示“比较了哪些方案”“为什么舍弃某个方案”“如果条件变化会怎样修正”时,观察者更容易觉得:这不只是一个输出工具,而是一个会做判断的系统。
自由意志归因的直接效应并不稳定,但它更可能通过行动者感间接发生。也就是说,人们不是先直接觉得“AI 有自由意志”,而更可能先觉得“它像一个行动者”,再进一步把它理解为“像是在自主做选择”。
并行中介结果还表明,这种作用并不是主要因为系统看起来更聪明。感知智能并没有解释大部分效应,更关键的是决策过程本身是否呈现出了判断、权衡与修正的结构。
不足以形成强行动者感。观察者看到的是结论,而不是判断过程。
也不足以明显提升自由意志归因。候选方案本身还不是理由响应。
理由权衡与反思修正,是更关键的过程线索。
应用启发
解释过程不只是界面文案问题,它可能影响用户如何理解 AI 的判断、公平性、责任边界和主体性。
解读:系统 B 更容易被理解为“进行了判断”。这可能提升候选人对流程的理解,但也会带来新的问题:如果判断有误,候选人会更自然地追问责任归属、申诉机制和人工复核入口。
设计启发:招聘类 AI 不应只显示“算法判断结果”,而应同时展示比较依据、置信边界、人工复核机制和申诉入口。解释越像判断,越需要清楚标出责任边界。
解读:系统 B 更容易被看作“有理由地做出判断”,而不是简单调用一个结果。它提升了推荐的可理解性,但也可能让用户更相信系统“懂自己”。
设计启发:推荐解释不应只说明“为什么推荐”,还应提供调整入口,例如“不感兴趣”“减少类似推荐”“修改兴趣标签”。解释与控制应该一起出现,否则解释可能变成新的说服机制。
解读:系统 B 不只是更长,而是展示了取舍逻辑和条件变化下的修正可能。用户更容易把它理解为“在判断”,而不是“在生成一句答案”。
设计启发:办公助手可以采用分层解释:先给建议,再给理由,再给风险与可调整条件。这样能提高可理解性,又避免一开始就给用户过长文本。
解读:NPC B 更容易被玩家理解为“有战术判断”“有行动意图”的角色,而不只是脚本触发的动作容器。
设计启发:游戏中的智能体不一定需要暴露复杂算法,但可以通过行为理由、战术取舍和后续修正增强角色主体感。这个方向可用于队友 AI、敌方 AI、伴随型角色和叙事 NPC 的体验设计。
这些场景共同说明:AI 解释过程不是简单的文案优化,而是在设计用户如何理解系统能力、责任边界和主体性。对产品设计来说,关键不是“解释越多越好”,而是解释是否呈现了清楚的比较、取舍、限制与修正机制。
产出
构建六类决策过程和两类身份标签。
调用 DeepSeek,生成结构化模拟响应。
保存原始响应,并转换为分析宽表。
完成构念得分、事实操纵检验、控制回归和计划对比。
进行并行中介分析,并自动生成研究报告。
延展
补充信息
| 中文页面术语 | 数据字段 / 代码名 |
|---|---|
| 行动者感 | agency |
| 感知智能 | perceived_intelligence |
| 感受能力归因 | experience |
| 决策过程条件 | process_condition |
| 事实操纵检验 | factual_manipulation_check |
| 文本长度 | char_len |
| 并行中介分析 | parallel mediation |
| 输出类型 | 说明 |
|---|---|
| 量表得分表 | 用于计算各决策过程条件下的构念均值。 |
| 控制回归摘要 | 用于检查文本长度和感知智能控制后的结果。 |
| 并行中介摘要 | 用于比较行动者感路径与感知智能路径。 |
| 研究报告 | 用于记录模拟预实验趋势和方法边界。 |
题项来源边界:当前题项是基于既有理论和量表构念改写的情境化归因题项池,不是完整成熟量表;正式研究仍需真实被试中的信效度检验。