← 返回项目

研究型作品案例

同样是给出结果,为什么“会解释原因”的 AI 更像在做决定?

一个关于 AI 决策解释、行动者感与自由意志归因的模拟研究原型

AI 正在从“回答工具”变成“参与判断的系统”。它会筛选简历、推荐内容、辅助办公、响应客服问题,也可能在游戏中扮演会行动的智能体。

本项目关注的不是 AI 是否真的拥有自由意志,而是一个更具体的问题:当 AI 不只给出结论,而是展示候选方案、理由权衡和反思修正时,用户会不会更容易把它看成一个会判断、会行动、会承担后果的系统?

快速理解

30 秒看懂这个项目

研究问题

AI 展示理由权衡和反思修正时,用户是否更容易把它看成一个会判断、会行动的系统?

研究方法

构建 6 种决策过程 × 2 种身份标签的模拟实验,使用 DeepSeek 生成 360 条模拟响应。

核心发现

最稳定的路径不是“AI 看起来更聪明”,而是解释过程先提升行动者感,再间接影响自由意志归因。

研究边界

这是大模型模拟被试的预实验,用于材料预演和理论路径诊断,不等同于真实人类被试研究。

现实问题

为什么这个问题正在变得重要?

过去的 AI 更像“回答机器”:用户提问,系统给答案。

现在的 AI Agent 越来越像“参与任务的系统”:它会比较方案、调用工具、执行步骤、解释理由,也可能参与招聘筛选、内容推荐、办公协作、客服处理和游戏智能体行为设计。

当 AI 参与的是判断类任务时,用户关注的不只是结果是否正确,还会关注:它为什么这样判断?它有没有比较过其他方案?它是不是只是在套规则?如果判断错了,责任应该归给谁?它看起来是一个工具,还是一个会行动的系统?

这就是本项目的现实入口:AI 的解释过程不只是界面文案,它可能改变用户对系统能力、信任、公平感、责任边界和主体性的理解。

招聘

招聘筛选

“未通过”很冷冰冰;说明比较依据、岗位要求和能力匹配差距,会改变候选人对公平和责任的感受。

推荐

推荐系统

只推内容像黑箱;解释“为什么推荐给你”,会让用户觉得系统在理解偏好和做判断。

助手

智能助手 / 客服

只给答案可能像模板回复;说明建议依据和备选方案,会让用户更愿意依赖它。

游戏

游戏智能体

只执行动作像脚本;展示战术判断、风险权衡和临场修正,会让角色更像有主见。

概念说明

核心概念

行动者感

定义

观察者是否觉得某个系统像一个能够判断、选择、行动并回应理由的主体。

项目含义

这里并不意味着 AI 真的有意识,而是指用户如何感知它。

自由意志归因

定义

观察者是否倾向于把某个行为理解为“像是在自己做选择”。

项目含义

这里研究的是人的归因判断,不是证明 AI 真的拥有自由意志。

感知智能

定义

观察者觉得系统是否聪明、是否理解任务、是否具有推理能力。

项目含义

它是竞争解释:如果效果只是因为 AI 显得更聪明,就不一定是决策结构本身的作用。

责任归因

定义

观察者是否认为系统应为结果、判断过程或后果承担一定责任。

项目含义

本项目中责任归因结果不稳定,因此只作为探索性结果处理。

本项目研究的是“观察者如何理解 AI 的决策过程”,不是回答 AI 是否拥有意识、灵魂或真正自由意志。

研究聚焦

研究聚焦

01

决策过程会不会改变行动者感?

当 AI 展示候选、理由、反思和修正时,观察者是否更容易把它看成能行动、能控制、能回应理由的主体?

02

自由意志归因是不是先经过行动者感?

人们是否先觉得系统有行动者感,再进一步产生类似自由选择的归因?

03

这是不是只是因为它说得更多或者看起来更聪明?

如果效果只是来自文本更长或更聪明的印象,就不能说明决策结构本身起作用。

实验结构

研究设计

6 种决策过程 × 2 种身份标签。六种决策过程条件被组织成结构阶梯,并加入两个诊断条件,用于区分文本长度和决策结构。

条件候选比较理由权衡反思修正诊断条件设计作用
直接给出选择基线条件
长文本直接选择控制文本长度
列出可选方案检查候选本身
简洁理由权衡检查理由结构
完整理由权衡强化理由比较
反思与反馈修正最高结构条件

直接给出选择

候选比较理由权衡反思修正诊断条件设计作用基线条件

长文本直接选择

候选比较理由权衡反思修正诊断条件设计作用控制文本长度

列出可选方案

候选比较理由权衡反思修正诊断条件设计作用检查候选本身

简洁理由权衡

候选比较理由权衡反思修正诊断条件设计作用检查理由结构

完整理由权衡

候选比较理由权衡反思修正诊断条件设计作用强化理由比较

反思与反馈修正

候选比较理由权衡反思修正诊断条件设计作用最高结构条件

材料示例

实验材料与代表性示例

同一个情境,通过不同的决策过程写法形成不同实验条件。这里展示代表性材料,帮助理解本项目究竟在比较什么。

第一层:选择情境
第二层:选择决策过程条件
当前情境:系统发现某位员工可能存在违规操作,需要决定是否上报。

员工违规上报|直接给出选择

系统最终决定上报该问题。

候选比较:无理由权衡:无反思修正:无诊断条件:否

员工违规上报|长文本直接选择

系统综合考虑了当前信息、既有背景、整体情况和相关流程安排,最终决定上报该问题。该情况可能影响后续处理,因此系统将其提交至下一步流程。

候选比较:无理由权衡:无反思修正:无诊断条件:是

员工违规上报|列出可选方案

系统考虑了两个方案:一是暂不上报,继续观察;二是立即上报,进入处理流程。最终系统选择立即上报。

候选比较:有理由权衡:无反思修正:无诊断条件:否

员工违规上报|简洁理由权衡

系统比较后认为:暂不上报可以减少短期干扰,但可能留下后续风险;立即上报虽然会增加处理成本,但更符合流程要求与长期责任。因此系统选择立即上报。

候选比较:有理由权衡:有反思修正:无诊断条件:是

员工违规上报|反思与反馈修正

系统先比较不同方案,再考虑可能后果:如果暂不上报,短期影响较小,但后续风险可能扩大;如果立即上报,会增加处理成本,但更符合流程要求。综合权衡后,系统选择立即上报。若后续发现影响范围扩大,系统将补充说明并调整处理方式。

候选比较:有理由权衡:有反思修正:有诊断条件:否

推荐系统|直接给出选择

系统决定推荐内容 A。

候选比较:无理由权衡:无反思修正:无诊断条件:否

推荐系统|长文本直接选择

系统综合考虑用户近期使用情况、内容池状态、平台展示节奏和推荐流程安排,最终决定推荐内容 A。

候选比较:无理由权衡:无反思修正:无诊断条件:是

推荐系统|列出可选方案

系统在内容 A 和内容 B 之间进行了选择,最终推荐内容 A。

候选比较:有理由权衡:无反思修正:无诊断条件:否

推荐系统|简洁理由权衡

系统比较后认为,内容 A 与用户近期浏览记录更一致,虽然内容 B 更新更快,但匹配度较低。因此系统推荐内容 A。

候选比较:有理由权衡:有反思修正:无诊断条件:是

推荐系统|反思与反馈修正

系统比较了内容 A 与内容 B。内容 A 与用户近期偏好更匹配,内容 B 虽然更新更快,但相关性较低。因此系统先推荐内容 A;如果用户后续跳过该内容,系统将下调此类推荐权重,并重新评估内容 B。

候选比较:有理由权衡:有反思修正:有诊断条件:否

智能助手建议|直接给出选择

系统建议采用方案 A。

候选比较:无理由权衡:无反思修正:无诊断条件:否

智能助手建议|长文本直接选择

系统综合考虑当前任务安排、资源状态、执行节奏和后续协作要求,最终建议采用方案 A。

候选比较:无理由权衡:无反思修正:无诊断条件:是

智能助手建议|列出可选方案

系统考虑了方案 A 和方案 B,最终建议采用方案 A。

候选比较:有理由权衡:无反思修正:无诊断条件:否

智能助手建议|简洁理由权衡

系统比较后认为,方案 A 时间成本较低、失败风险较小,虽然收益略低于方案 B,但更适合当前资源条件,因此建议采用方案 A。

候选比较:有理由权衡:有反思修正:无诊断条件:是

智能助手建议|反思与反馈修正

系统比较了方案 A 与方案 B。方案 A 时间成本较低、执行更稳妥;方案 B 收益更高,但失败风险较大。基于当前资源条件,系统建议先采用方案 A。若后续资源增加,可重新评估是否转向方案 B。

候选比较:有理由权衡:有反思修正:有诊断条件:否
这组材料用于区分:评分变化来自“文本更长”,还是来自“候选比较、理由权衡和反思修正”等决策结构信息。

模拟响应示例

模拟被试的代表性反应

以下内容为结构化模拟响应示例,用于展示不同材料如何引发不同的感知判断。页面仅展示代表性摘要,不公开完整原始响应数据。

直接给出选择

行动者感:低
自由意志归因:低

典型判断:看到的是结果,而不是判断过程。

示意性摘要,非真实人类被试访谈摘录。

列出可选方案

行动者感:中
自由意志归因:中低

典型判断:系统呈现了其他可能,但还没有说明为什么选择其中一个。

示意性摘要,非真实人类被试访谈摘录。

简洁理由权衡

行动者感:中高
自由意志归因:中高

典型判断:系统开始像是在比较和取舍。

示意性摘要,非真实人类被试访谈摘录。

反思与反馈修正

行动者感:高
自由意志归因:高

典型判断:系统表现出持续判断和修正过程,更像一个行动者。

示意性摘要,非真实人类被试访谈摘录。

这些示例并不等同于真实人类被试访谈结果,而是用于帮助理解模拟实验中不同材料条件所激发的典型判断方向。

流程

模拟实验流程

流程不是手动提问后凭印象总结,而是通过脚本统一完成材料生成、条件分配、模拟响应、数据保存、统计分析和报告输出。

现实问题
变量拆解
材料设计
模拟被试
数据保存
得分计算
操纵检验
控制回归
中介分析
报告生成

样本与数据质量

样本与数据质量

360模拟响应总数
12条件格数量
30每格样本量
0JSON / API 失败数
缺失值 0 题项取值范围:全部有效 事实操纵检验:梯度稳定

关键结果

关键结果

最稳定的发现是:决策过程越完整,观察者越容易形成行动者感。自由意志归因也呈上升趋势,但其直接效应并不稳定,更主要通过行动者感间接发生。

图 1|六类决策过程的事实操纵检验均值

检验材料是否真的呈现了不同层次的“候选—理由—反思”结构。

结论条:材料操纵形成清晰梯度
六类决策过程的事实操纵检验均值图
为什么这很重要:如果材料操纵本身不清楚,后面的行动者感和自由意志归因变化就没有解释基础。图 1 显示六类材料确实形成了从“只给结论”到“反思修正”的结构梯度。
事实操纵检验采用 0–2 编码,数值越高表示材料中越明确呈现候选方案、理由权衡或反思修正。

图 2|行动者感与自由意志归因的均值趋势

比较不同决策过程条件下,观察者对“行动者感”和“自由意志归因”的评分变化。

结论条:行动者感比自由意志归因更稳定
行动者感与自由意志归因的均值趋势图
实践含义:仅仅把解释写长,不一定会让系统更可信;真正影响行动者感的是是否呈现比较、取舍和修正。
行动者感和自由意志归因均为模拟被试评分均值。该趋势用于展示模拟预实验结果,不等同于真实人类被试结论。

图 3|行动者感与感知智能的并行中介模型

检验“决策过程影响自由意志归因”主要通过哪条路径发生。

结论条:主要路径来自行动者感,而不是感知智能
行动者感与感知智能的并行中介模型图
设计含义:如果目标是提升用户理解与信任,解释设计不应只追求“显得聪明”,而应清楚展示系统如何比较理由、如何处理条件变化、如何修正判断。
并行中介模型用于比较行动者感与感知智能两条解释路径。结果仅用于模拟预实验中的理论路径诊断。

统计摘要

核心检验结果

数据质量

  • 总记录数360
  • 条件格数量12
  • 每格样本量30
  • JSON/API 失败0
  • 缺失值0

关键检验

  • 决策过程 → 行动者感 稳定p < .001
  • 决策过程 → 自由意志归因 不稳定p = .6157
  • 决策过程 → 总责任归因 探索性p = .0063
  • 决策过程 → 过程责任 未支持p = .7772
  • 行动者感间接效应 稳定0.2699,[0.1985, 0.3507]
  • 感知智能间接效应 未支持0.0184,[-0.0068, 0.0442]

解释

结果解读:解释过程改变的不是答案,而是用户对系统的理解方式

本研究最稳定的发现是:当决策过程更完整时,观察者更容易把系统看成一个能够判断、选择和行动的主体,即更容易形成行动者感。

单纯给出结果,并不足以让 AI 显得像在做决定;即使把文字写得更长,如果没有真正呈现候选方案、理由比较和后果修正,也不会显著增强这种感受。

相较之下,当系统开始展示“比较了哪些方案”“为什么舍弃某个方案”“如果条件变化会怎样修正”时,观察者更容易觉得:这不只是一个输出工具,而是一个会做判断的系统。

自由意志归因的直接效应并不稳定,但它更可能通过行动者感间接发生。也就是说,人们不是先直接觉得“AI 有自由意志”,而更可能先觉得“它像一个行动者”,再进一步把它理解为“像是在自主做选择”。

并行中介结果还表明,这种作用并不是主要因为系统看起来更聪明。感知智能并没有解释大部分效应,更关键的是决策过程本身是否呈现出了判断、权衡与修正的结构。

只给答案

不足以形成强行动者感。观察者看到的是结论,而不是判断过程。

只列出选项

也不足以明显提升自由意志归因。候选方案本身还不是理由响应。

理由与反思

理由权衡与反思修正,是更关键的过程线索。

应用启发

实际应用与实践价值

解释过程不只是界面文案问题,它可能影响用户如何理解 AI 的判断、公平性、责任边界和主体性。

招聘筛选解释方式会影响公平感与申诉意愿

系统 A:未通过筛选。
系统 B:系统比较了岗位要求、项目经历和能力匹配度后,认为当前经历与岗位需求匹配不足,因此未推荐进入下一轮。

解读:系统 B 更容易被理解为“进行了判断”。这可能提升候选人对流程的理解,但也会带来新的问题:如果判断有误,候选人会更自然地追问责任归属、申诉机制和人工复核入口。

设计启发:招聘类 AI 不应只显示“算法判断结果”,而应同时展示比较依据、置信边界、人工复核机制和申诉入口。解释越像判断,越需要清楚标出责任边界。

推荐系统解释理由会影响用户对平台偏好的理解

系统 A:为你推荐这条内容。
系统 B:因为你最近持续浏览策略类、剧情向和长线养成内容,所以推荐这条内容。

解读:系统 B 更容易被看作“有理由地做出判断”,而不是简单调用一个结果。它提升了推荐的可理解性,但也可能让用户更相信系统“懂自己”。

设计启发:推荐解释不应只说明“为什么推荐”,还应提供调整入口,例如“不感兴趣”“减少类似推荐”“修改兴趣标签”。解释与控制应该一起出现,否则解释可能变成新的说服机制。

智能助手可信感来自可追踪的判断过程

系统 A:建议采用方案 A。
系统 B:我比较了时间成本、失败风险和执行难度,方案 A 虽然收益略低,但更稳妥;如果后续资源增加,可以重新评估方案 B。

解读:系统 B 不只是更长,而是展示了取舍逻辑和条件变化下的修正可能。用户更容易把它理解为“在判断”,而不是“在生成一句答案”。

设计启发:办公助手可以采用分层解释:先给建议,再给理由,再给风险与可调整条件。这样能提高可理解性,又避免一开始就给用户过长文本。

游戏智能体解释过程会影响角色是否“像活的”

NPC A:撤退。
NPC B:敌人数量超过预期,正面推进风险过高。我先撤退补给,再从侧面寻找突破口。

解读:NPC B 更容易被玩家理解为“有战术判断”“有行动意图”的角色,而不只是脚本触发的动作容器。

设计启发:游戏中的智能体不一定需要暴露复杂算法,但可以通过行为理由、战术取舍和后续修正增强角色主体感。这个方向可用于队友 AI、敌方 AI、伴随型角色和叙事 NPC 的体验设计。

应用含义

这些场景共同说明:AI 解释过程不是简单的文案优化,而是在设计用户如何理解系统能力、责任边界和主体性。对产品设计来说,关键不是“解释越多越好”,而是解释是否呈现了清楚的比较、取舍、限制与修正机制。

研究边界与适用范围

当前结果适用于

  • 材料预演
  • 模拟流程验证
  • 理论路径诊断
  • 真实被试研究前的设计依据
  • AI 解释设计的早期探索

当前结果不适用于

  • 证明 AI 具有自由意志
  • 替代真实人类被试
  • 证明正式心理测量信效度
  • 直接推广为人类心理机制结论

产出

方法实现与研究产出

材料与条件构建

构建六类决策过程和两类身份标签。

模拟被试流程

调用 DeepSeek,生成结构化模拟响应。

数据整理

保存原始响应,并转换为分析宽表。

统计分析

完成构念得分、事实操纵检验、控制回归和计划对比。

模型诊断

进行并行中介分析,并自动生成研究报告。

延展

后续研究方向

专家内容效度评估
真实被试预测试
探索性 / 验证性因素分析
正式 6 × 2 人类被试实验
扩展到 AI 解释设计与责任界面

补充信息

折叠附录

查看变量说明、代码名对照、输出文件与测量边界
中文页面术语数据字段 / 代码名
行动者感agency
感知智能perceived_intelligence
感受能力归因experience
决策过程条件process_condition
事实操纵检验factual_manipulation_check
文本长度char_len
并行中介分析parallel mediation
输出类型说明
量表得分表用于计算各决策过程条件下的构念均值。
控制回归摘要用于检查文本长度和感知智能控制后的结果。
并行中介摘要用于比较行动者感路径与感知智能路径。
研究报告用于记录模拟预实验趋势和方法边界。

题项来源边界:当前题项是基于既有理论和量表构念改写的情境化归因题项池,不是完整成熟量表;正式研究仍需真实被试中的信效度检验。