研究型作品案例

同样是给出结果，为什么“会解释原因”的 AI 更像在做决定？

一个关于 AI 决策解释、行动者感与自由意志归因的模拟研究原型

AI 正在从“回答工具”变成“参与判断的系统”。它会筛选简历、推荐内容、辅助办公、响应客服问题，也可能在游戏中扮演会行动的智能体。

本项目关注的不是 AI 是否真的拥有自由意志，而是一个更具体的问题：当 AI 不只给出结论，而是展示候选方案、理由权衡和反思修正时，用户会不会更容易把它看成一个会判断、会行动、会承担后果的系统？

研究设计关键结果研究边界查看 GitHub 仓库

快速理解

30 秒看懂这个项目

研究问题

AI 展示理由权衡和反思修正时，用户是否更容易把它看成一个会判断、会行动的系统？

研究方法

构建 6 种决策过程 × 2 种身份标签的模拟实验，使用 DeepSeek 生成 360 条模拟响应。

核心发现

最稳定的路径不是“AI 看起来更聪明”，而是解释过程先提升行动者感，再间接影响自由意志归因。

研究边界

这是大模型模拟被试的预实验，用于材料预演和理论路径诊断，不等同于真实人类被试研究。

现实问题

为什么这个问题正在变得重要？

过去的 AI 更像“回答机器”：用户提问，系统给答案。

现在的 AI Agent 越来越像“参与任务的系统”：它会比较方案、调用工具、执行步骤、解释理由，也可能参与招聘筛选、内容推荐、办公协作、客服处理和游戏智能体行为设计。

当 AI 参与的是判断类任务时，用户关注的不只是结果是否正确，还会关注：它为什么这样判断？它有没有比较过其他方案？它是不是只是在套规则？如果判断错了，责任应该归给谁？它看起来是一个工具，还是一个会行动的系统？

这就是本项目的现实入口：AI 的解释过程不只是界面文案，它可能改变用户对系统能力、信任、公平感、责任边界和主体性的理解。

招聘

招聘筛选

“未通过”很冷冰冰；说明比较依据、岗位要求和能力匹配差距，会改变候选人对公平和责任的感受。

智能助手 / 客服

只给答案可能像模板回复；说明建议依据和备选方案，会让用户更愿意依赖它。

游戏

游戏智能体

只执行动作像脚本；展示战术判断、风险权衡和临场修正，会让角色更像有主见。

概念说明

核心概念

行动者感

定义

观察者是否觉得某个系统像一个能够判断、选择、行动并回应理由的主体。

项目含义

这里并不意味着 AI 真的有意识，而是指用户如何感知它。

自由意志归因

定义

观察者是否倾向于把某个行为理解为“像是在自己做选择”。

项目含义

这里研究的是人的归因判断，不是证明 AI 真的拥有自由意志。

感知智能

定义

观察者觉得系统是否聪明、是否理解任务、是否具有推理能力。

项目含义

它是竞争解释：如果效果只是因为 AI 显得更聪明，就不一定是决策结构本身的作用。

责任归因

定义

观察者是否认为系统应为结果、判断过程或后果承担一定责任。

项目含义

本项目中责任归因结果不稳定，因此只作为探索性结果处理。

本项目研究的是“观察者如何理解 AI 的决策过程”，不是回答 AI 是否拥有意识、灵魂或真正自由意志。

研究聚焦

01

决策过程会不会改变行动者感？

当 AI 展示候选、理由、反思和修正时，观察者是否更容易把它看成能行动、能控制、能回应理由的主体？

02

自由意志归因是不是先经过行动者感？

人们是否先觉得系统有行动者感，再进一步产生类似自由选择的归因？

03

这是不是只是因为它说得更多或者看起来更聪明？

如果效果只是来自文本更长或更聪明的印象，就不能说明决策结构本身起作用。

实验结构

研究设计

6 种决策过程 × 2 种身份标签。六种决策过程条件被组织成结构阶梯，并加入两个诊断条件，用于区分文本长度和决策结构。

条件	候选比较	理由权衡	反思修正	诊断条件	设计作用
直接给出选择	无	无	无	否	基线条件
长文本直接选择	无	无	无	是	控制文本长度
列出可选方案	有	弱	无	否	检查候选本身
简洁理由权衡	有	有	无	是	检查理由结构
完整理由权衡	有	有	无	否	强化理由比较
反思与反馈修正	有	有	有	否	最高结构条件

直接给出选择

候选比较无理由权衡无反思修正无诊断条件否设计作用基线条件

长文本直接选择

候选比较无理由权衡无反思修正无诊断条件是设计作用控制文本长度

列出可选方案

候选比较有理由权衡弱反思修正无诊断条件否设计作用检查候选本身

简洁理由权衡

候选比较有理由权衡有反思修正无诊断条件是设计作用检查理由结构

完整理由权衡

候选比较有理由权衡有反思修正无诊断条件否设计作用强化理由比较

反思与反馈修正

候选比较有理由权衡有反思修正有诊断条件否设计作用最高结构条件

材料示例

实验材料与代表性示例

同一个情境，通过不同的决策过程写法形成不同实验条件。这里展示代表性材料，帮助理解本项目究竟在比较什么。

第一层：选择情境

第二层：选择决策过程条件

当前情境：系统发现某位员工可能存在违规操作，需要决定是否上报。

员工违规上报｜直接给出选择

系统最终决定上报该问题。

候选比较：无理由权衡：无反思修正：无诊断条件：否

员工违规上报｜长文本直接选择

系统综合考虑了当前信息、既有背景、整体情况和相关流程安排，最终决定上报该问题。该情况可能影响后续处理，因此系统将其提交至下一步流程。

候选比较：无理由权衡：无反思修正：无诊断条件：是

员工违规上报｜列出可选方案

系统考虑了两个方案：一是暂不上报，继续观察；二是立即上报，进入处理流程。最终系统选择立即上报。

候选比较：有理由权衡：无反思修正：无诊断条件：否

员工违规上报｜简洁理由权衡

系统比较后认为：暂不上报可以减少短期干扰，但可能留下后续风险；立即上报虽然会增加处理成本，但更符合流程要求与长期责任。因此系统选择立即上报。

候选比较：有理由权衡：有反思修正：无诊断条件：是

员工违规上报｜反思与反馈修正

系统先比较不同方案，再考虑可能后果：如果暂不上报，短期影响较小，但后续风险可能扩大；如果立即上报，会增加处理成本，但更符合流程要求。综合权衡后，系统选择立即上报。若后续发现影响范围扩大，系统将补充说明并调整处理方式。

候选比较：有理由权衡：有反思修正：有诊断条件：否

智能助手建议｜直接给出选择

系统建议采用方案 A。

候选比较：无理由权衡：无反思修正：无诊断条件：否

智能助手建议｜长文本直接选择

系统综合考虑当前任务安排、资源状态、执行节奏和后续协作要求，最终建议采用方案 A。

候选比较：无理由权衡：无反思修正：无诊断条件：是

智能助手建议｜列出可选方案

系统考虑了方案 A 和方案 B，最终建议采用方案 A。

候选比较：有理由权衡：无反思修正：无诊断条件：否

智能助手建议｜简洁理由权衡

系统比较后认为，方案 A 时间成本较低、失败风险较小，虽然收益略低于方案 B，但更适合当前资源条件，因此建议采用方案 A。

候选比较：有理由权衡：有反思修正：无诊断条件：是

智能助手建议｜反思与反馈修正

系统比较了方案 A 与方案 B。方案 A 时间成本较低、执行更稳妥；方案 B 收益更高，但失败风险较大。基于当前资源条件，系统建议先采用方案 A。若后续资源增加，可重新评估是否转向方案 B。

候选比较：有理由权衡：有反思修正：有诊断条件：否

这组材料用于区分：评分变化来自“文本更长”，还是来自“候选比较、理由权衡和反思修正”等决策结构信息。

模拟响应示例

模拟被试的代表性反应

以下内容为结构化模拟响应示例，用于展示不同材料如何引发不同的感知判断。页面仅展示代表性摘要，不公开完整原始响应数据。

直接给出选择

行动者感：低

自由意志归因：低

典型判断：看到的是结果，而不是判断过程。

示意性摘要，非真实人类被试访谈摘录。

列出可选方案

行动者感：中

自由意志归因：中低

典型判断：系统呈现了其他可能，但还没有说明为什么选择其中一个。

示意性摘要，非真实人类被试访谈摘录。

简洁理由权衡

行动者感：中高

自由意志归因：中高

典型判断：系统开始像是在比较和取舍。

示意性摘要，非真实人类被试访谈摘录。

反思与反馈修正

行动者感：高

自由意志归因：高

典型判断：系统表现出持续判断和修正过程，更像一个行动者。

示意性摘要，非真实人类被试访谈摘录。

这些示例并不等同于真实人类被试访谈结果，而是用于帮助理解模拟实验中不同材料条件所激发的典型判断方向。

流程

模拟实验流程

流程不是手动提问后凭印象总结，而是通过脚本统一完成材料生成、条件分配、模拟响应、数据保存、统计分析和报告输出。

现实问题

变量拆解

材料设计

模拟被试

数据保存

得分计算

操纵检验

控制回归

中介分析

报告生成

样本与数据质量

360模拟响应总数

12条件格数量

30每格样本量

0JSON / API 失败数

缺失值 0 题项取值范围：全部有效事实操纵检验：梯度稳定

关键结果

最稳定的发现是：决策过程越完整，观察者越容易形成行动者感。自由意志归因也呈上升趋势，但其直接效应并不稳定，更主要通过行动者感间接发生。

六类决策过程的事实操纵检验均值图 — 事实操纵检验采用 0–2 编码，数值越高表示材料中越明确呈现候选方案、理由权衡或反思修正。

行动者感与自由意志归因的均值趋势图 — 行动者感和自由意志归因均为模拟被试评分均值。该趋势用于展示模拟预实验结果，不等同于真实人类被试结论。

行动者感与感知智能的并行中介模型图 — 并行中介模型用于比较行动者感与感知智能两条解释路径。结果仅用于模拟预实验中的理论路径诊断。

统计摘要

核心检验结果

数据质量

总记录数360
条件格数量12
每格样本量30
JSON/API 失败0
缺失值0

关键检验

决策过程 → 行动者感稳定p < .001
决策过程 → 自由意志归因不稳定p = .6157
决策过程 → 总责任归因探索性p = .0063
决策过程 → 过程责任未支持p = .7772
行动者感间接效应稳定0.2699，[0.1985, 0.3507]
感知智能间接效应未支持0.0184，[-0.0068, 0.0442]

解释

结果解读：解释过程改变的不是答案，而是用户对系统的理解方式

本研究最稳定的发现是：当决策过程更完整时，观察者更容易把系统看成一个能够判断、选择和行动的主体，即更容易形成行动者感。

单纯给出结果，并不足以让 AI 显得像在做决定；即使把文字写得更长，如果没有真正呈现候选方案、理由比较和后果修正，也不会显著增强这种感受。

相较之下，当系统开始展示“比较了哪些方案”“为什么舍弃某个方案”“如果条件变化会怎样修正”时，观察者更容易觉得：这不只是一个输出工具，而是一个会做判断的系统。

自由意志归因的直接效应并不稳定，但它更可能通过行动者感间接发生。也就是说，人们不是先直接觉得“AI 有自由意志”，而更可能先觉得“它像一个行动者”，再进一步把它理解为“像是在自主做选择”。

并行中介结果还表明，这种作用并不是主要因为系统看起来更聪明。感知智能并没有解释大部分效应，更关键的是决策过程本身是否呈现出了判断、权衡与修正的结构。

只给答案

不足以形成强行动者感。观察者看到的是结论，而不是判断过程。

只列出选项

也不足以明显提升自由意志归因。候选方案本身还不是理由响应。

理由与反思

理由权衡与反思修正，是更关键的过程线索。

应用启发

实际应用与实践价值

解释过程不只是界面文案问题，它可能影响用户如何理解 AI 的判断、公平性、责任边界和主体性。

招聘筛选解释方式会影响公平感与申诉意愿

系统 A：未通过筛选。

系统 B：系统比较了岗位要求、项目经历和能力匹配度后，认为当前经历与岗位需求匹配不足，因此未推荐进入下一轮。

解读：系统 B 更容易被理解为“进行了判断”。这可能提升候选人对流程的理解，但也会带来新的问题：如果判断有误，候选人会更自然地追问责任归属、申诉机制和人工复核入口。

设计启发：招聘类 AI 不应只显示“算法判断结果”，而应同时展示比较依据、置信边界、人工复核机制和申诉入口。解释越像判断，越需要清楚标出责任边界。

智能助手可信感来自可追踪的判断过程

系统 A：建议采用方案 A。

系统 B：我比较了时间成本、失败风险和执行难度，方案 A 虽然收益略低，但更稳妥；如果后续资源增加，可以重新评估方案 B。

解读：系统 B 不只是更长，而是展示了取舍逻辑和条件变化下的修正可能。用户更容易把它理解为“在判断”，而不是“在生成一句答案”。

设计启发：办公助手可以采用分层解释：先给建议，再给理由，再给风险与可调整条件。这样能提高可理解性，又避免一开始就给用户过长文本。

游戏智能体解释过程会影响角色是否“像活的”

NPC A：撤退。

NPC B：敌人数量超过预期，正面推进风险过高。我先撤退补给，再从侧面寻找突破口。

解读：NPC B 更容易被玩家理解为“有战术判断”“有行动意图”的角色，而不只是脚本触发的动作容器。

设计启发：游戏中的智能体不一定需要暴露复杂算法，但可以通过行为理由、战术取舍和后续修正增强角色主体感。这个方向可用于队友 AI、敌方 AI、伴随型角色和叙事 NPC 的体验设计。

应用含义

这些场景共同说明：AI 解释过程不是简单的文案优化，而是在设计用户如何理解系统能力、责任边界和主体性。对产品设计来说，关键不是“解释越多越好”，而是解释是否呈现了清楚的比较、取舍、限制与修正机制。

研究边界与适用范围

当前结果适用于

材料预演
模拟流程验证
理论路径诊断
真实被试研究前的设计依据
AI 解释设计的早期探索

当前结果不适用于

证明 AI 具有自由意志
替代真实人类被试
证明正式心理测量信效度
直接推广为人类心理机制结论

产出

方法实现与研究产出

材料与条件构建

构建六类决策过程和两类身份标签。

模拟被试流程

调用 DeepSeek，生成结构化模拟响应。

数据整理

保存原始响应，并转换为分析宽表。

统计分析

完成构念得分、事实操纵检验、控制回归和计划对比。

模型诊断

进行并行中介分析，并自动生成研究报告。

延展

后续研究方向

专家内容效度评估

真实被试预测试

探索性 / 验证性因素分析

正式 6 × 2 人类被试实验

扩展到 AI 解释设计与责任界面

补充信息

折叠附录

查看变量说明、代码名对照、输出文件与测量边界

中文页面术语	数据字段 / 代码名
行动者感	agency
感知智能	perceived_intelligence
感受能力归因	experience
决策过程条件	process_condition
事实操纵检验	factual_manipulation_check
文本长度	char_len
并行中介分析	parallel mediation

输出类型	说明
量表得分表	用于计算各决策过程条件下的构念均值。
控制回归摘要	用于检查文本长度和感知智能控制后的结果。
并行中介摘要	用于比较行动者感路径与感知智能路径。
研究报告	用于记录模拟预实验趋势和方法边界。

题项来源边界：当前题项是基于既有理论和量表构念改写的情境化归因题项池，不是完整成熟量表；正式研究仍需真实被试中的信效度检验。

同样是给出结果，为什么“会解释原因”的 AI 更像在做决定？

30 秒看懂这个项目

研究问题

研究方法

核心发现

研究边界

为什么这个问题正在变得重要？

招聘筛选

推荐系统

智能助手 / 客服

游戏智能体

核心概念

行动者感

自由意志归因

感知智能

责任归因

研究聚焦

决策过程会不会改变行动者感？

自由意志归因是不是先经过行动者感？

这是不是只是因为它说得更多或者看起来更聪明？

研究设计

直接给出选择

长文本直接选择

列出可选方案

简洁理由权衡

完整理由权衡

反思与反馈修正

实验材料与代表性示例

员工违规上报｜直接给出选择

员工违规上报｜长文本直接选择

员工违规上报｜列出可选方案

员工违规上报｜简洁理由权衡

员工违规上报｜反思与反馈修正

推荐系统｜直接给出选择

推荐系统｜长文本直接选择

推荐系统｜列出可选方案

推荐系统｜简洁理由权衡

推荐系统｜反思与反馈修正

智能助手建议｜直接给出选择

智能助手建议｜长文本直接选择

智能助手建议｜列出可选方案

智能助手建议｜简洁理由权衡

智能助手建议｜反思与反馈修正

模拟被试的代表性反应

直接给出选择

列出可选方案

简洁理由权衡

反思与反馈修正

模拟实验流程

样本与数据质量

关键结果

图 1｜六类决策过程的事实操纵检验均值

图 2｜行动者感与自由意志归因的均值趋势

图 3｜行动者感与感知智能的并行中介模型

核心检验结果

数据质量

关键检验

结果解读：解释过程改变的不是答案，而是用户对系统的理解方式

只给答案

只列出选项

理由与反思

实际应用与实践价值

招聘筛选解释方式会影响公平感与申诉意愿

推荐系统解释理由会影响用户对平台偏好的理解

智能助手可信感来自可追踪的判断过程

游戏智能体解释过程会影响角色是否“像活的”

应用含义

研究边界与适用范围

当前结果适用于

当前结果不适用于

方法实现与研究产出

材料与条件构建

模拟被试流程

数据整理

统计分析

模型诊断

后续研究方向

折叠附录