aip-sci 0.1.0 - Docs.rs

# 情感交互编程（AIP）——第一部分：基于情绪数据模型的AI决策与生成式用户交互

**张海龙**  
`hailongz@qq.com`

---

## 摘要

传统的自适应系统将用户体验视为需要事后评估的结果，根据用户表现或明确偏好调整内容。本文提出**情感交互编程（AIP）**，一种全新的范式——**用户情绪成为AI策略网络直接优化的第一优先级设计变量**。AIP不推荐内容，而是**生成交互逻辑本身**——将用户特质与实时行为情绪信号映射到参数化的交互机制，包括节奏、强度与反馈动态。

我们在一个Roguelite游戏环境中实现AIP。强化学习智能体接收三类输入：（1）用户静态特质，（2）环境状态特征，（3）从触屏动力学、按键熵与犹豫模式合成的**实时情绪向量**。策略网络以最大化**任务进度+情绪提升+留存**的复合奖励为目标进行优化。

我们通过大规模在线实验（目标样本量N > 500）将AIP与人工设计基线及纯留存优化RL智能体进行对比。**初步仿真结果表明**：

1. 情绪预测器与用户自我报告的效价/唤醒/掌控感达到交叉验证Pearson r > 0.55。
2. 策略参数在不同用户群体间出现分化——不同用户群体收敛到**性质迥异的交互风格**。
3. 消融实验证实，从奖励函数中移除情绪项会导致情绪波动性增加，而留存率并未提升。

我们认为，AIP代表了一类新型人智交互系统——**界面本身成为情感调节器**。在AIP控制下，同一套系统对一位用户可能呈现为高强度挑战，对另一位用户则呈现为冥想式探索——不是因为内容不同，而是因为**AI学会了调节交互以引发期望的情绪状态**。

**关键词**：强化学习 · 情感计算 · 个性化交互 · 人智交互 · 情绪建模

---

## 1. 引言

现代交互系统日益依赖AI来实现个性化体验。然而，主导范式仍然是**以内容为中心**：推荐引擎选择接下来该展示哪个视频、商品或关卡。而交互本身——控制的响应性、反馈的节奏、视听强度——仍然由人工设计，或通过简单的启发式规则（如动态难度平衡）进行调整。

我们认为，交互参数不仅仅是内容的传递机制；它们是**强大的情感工具**。快速的镜头、昏暗的环境氛围或突发事件都能瞬间改变用户的唤醒度与效价。然而，当前的AI驱动系统将这些情感后果视为**未建模的副作用**，转而优化参与度或留存指标。

近年来，情感感知人机交互领域的研究者长期将根据情感模式自主定制内容视为核心目标。以体验驱动的程序化内容生成框架为代表的研究，致力于搜索能够引发特定体验模式的内容。强化学习方法也已被引入情感建模领域，将生成情感交互的任务视为一个强化学习过程——智能体通过尝试最大化行为和情感奖励来学习策略。这些方法验证了一个假设：情绪可以作为决策的促进因素，这一观点建立在达马西奥的躯体标记假说之上。

本文提出**情感交互编程（AIP）**，一个将**用户情绪作为AI决策者直接优化目标**的框架。AIP不是预测用户可能喜欢什么内容，而是生成**交互规则**——控制即时体验的连续信号——以主动将用户情绪状态引导至期望区域。

具体而言，我们的贡献包括：

1. **理论迁移**：从"情绪作为评价指标"转向"情绪作为可编程设计变量"。
2. **纯行为情绪感知方法**：一个从触屏/键盘遥测数据推断效价、唤醒和掌控感的监督学习模型——**无需任何生理传感器**。
3. **基于强化学习的交互策略**：一个PPO智能体，以用户特质、环境状态和实时情绪向量为输入，输出连续的交互参数。
4. **来自大规模在线实验的实证证据**：我们证明同一个策略网络会**自发地为不同用户群体特化**，产生让用户感知为性质迥异的交互模式。

### 1.1 相关工作

#### 1.1.1 情绪的维度模型

情绪的维度方法可追溯至冯特（1896）的三维理论，他认为情感沿着愉快-不愉快、紧张-放松和兴奋-沉静三个维度变化。在此基础上，Mehrabian和Russell（1974）提出了愉悦-唤醒-优势度（PAD）模型，将情绪状态概念化为三维连续空间中的坐标。后续研究证实，这三个双极维度**既充分又必要**，能够解释言语报告情感量表中几乎所有可靠变异。该模型通过自我评估模型（SAM）量表得到广泛操作化，并仍是现代情感计算的基石。遵循这一成熟传统，我们采用效价、唤醒和掌控感（VAD）作为实时情感推断模型的潜在情绪状态空间。

#### 1.1.2 情感感知人机交互

长期以来，根据情感模式自主定制内容一直被视为情感感知交互的核心目标。以体验驱动的程序化内容生成框架为代表的研究，致力于搜索能够引发特定体验模式的内容。近期工作提出了用于生成情感定制内容的强化学习框架，证明RL智能体可以学习生成能引发期望情感响应的内容。在赛车游戏领域，例如，体验驱动RL已被证明能够根据设计师风格准确生成情感驱动的关卡，在个性化内容生成方面优于基于搜索的方法。

与此同时，情感智能对话系统的研究探索了用户情绪与系统策略之间的对话动态建模。诸如EmoDynamiX等框架证明，对细粒度情绪状态进行建模可以提升对话系统的性能和透明度。

#### 1.1.3 情感驱动强化学习

近期研究引入了一个范式转变，将情感建模视为一个强化学习过程。在这一范式中，RL智能体通过与环境交互，试图最大化行为和情感奖励集来学习策略。赛车游戏领域的研究表明，情感驱动RL不仅是一种有效的情感建模范式，还能改善探索并产生性能更高的智能体。

#### 1.1.4 研究空白与本文贡献

尽管已有这些进展，现有方法仍存在两个关键局限。首先，它们主要聚焦于**生成静态内容**（关卡、对话响应），而非动态调节**实时交互参数**。其次，它们将情感视为**需要匹配的目标**（例如，匹配目标唤醒度轨迹），而非与用户行为闭环优化的连续变量。本文通过提出AIP来填补这些空白——交互参数本身成为RL策略的输出，策略以情绪提升为目标进行优化，并且同一个策略会自发地为不同用户群体特化。

---

## 2. 理论框架：情感交互编程

### 2.1 AI决策的形式化

我们将交互决策形式化为一个**部分可观测马尔可夫决策过程（POMDP）**：

- **隐藏状态** sₜ：用户的内部情绪状态（效价、唤醒、掌控感），无法直接观测。
- **观测** oₜ：行为信号（触控动力学、交互模式）、环境状态和用户静态特质。
- **信念状态** bₜ：由**情绪数据模型（EDM）**提供的对 sₜ 的近似。
- **动作** aₜ：控制体验的连续交互参数（节奏、强度、反馈）。
- **奖励** rₜ：rₜ = α · 进度 + β · 情绪提升 + γ · 留存。

### 2.2 从内容推荐到交互生成

传统AI决策遵循：

```
f: (用户, 内容池) → 最优内容
```

AIP将其替换为：

```
g: (用户, 实时上下文, 情绪状态) → 交互参数
```

关键区别在于：输出不是从固定集合中的**选择**，而是在连续参数空间中的**合成**。

### 2.3 情绪作为可编程设计变量

我们引入**情绪目标函数**的概念。设计师不再通过手工规则指定"交互应该如何感受"。相反，他们定义**期望的情绪轨迹**（例如，"保持积极效价，同时允许适度的唤醒波动"）。然后AI搜索能够实现这些轨迹的参数路径，同时兼顾次要目标（留存、进度）。

---

## 3. 情绪数据模型（EDM）设计

### 3.1 行为特征工程

对于每个不重叠的10秒窗口，我们从原始交互事件计算特征：

| 类别 | 特征 | 情绪关联 |
|------|------|----------|
| 唤醒 | 点击频率、滑动速度、多点触控比例、设备运动方差 | 数值越高→唤醒越高 |
| 效价 | 重试延迟、暂停时长、犹豫时间、完成率 | 重试延迟越低→效价越高 |
| 掌控 | 路径效率、动作精度、取消率 | 精度越高→掌控越高 |

所有特征使用交互前2分钟采集的用户特定校准数据进行z分数归一化。

### 3.2 模型架构

EDM采用带注意力的时序卷积网络：

```
输入（15维特征，5步历史）→ 1D卷积（滤波器=32，核=3）→ 
SE模块（通道注意力）→ 双向LSTM（64）→ 自注意力 → 
MLP（64→32→3）→ Sigmoid → [效价，唤醒，掌控] ∈ [0,1]
```

**损失函数**：

```
L = 0.4 · MSE(v) + 0.4 · MSE(a) + 0.2 · MSE(d) + 0.2 · (1 - CCC)
```

其中CCC（Lin的一致性相关系数）用于促进时序一致性。

### 3.3 预训练与验证

**数据采集**：30名参与者玩游戏20分钟，同时每3分钟提供SAM评分（每位参与者约200个标记窗口）。

**结果**（5折交叉验证）：

| 维度 | Pearson r | RMSE（0-1尺度） |
|------|-----------|-----------------|
| 效价 | 0.58 | 0.16 |
| 唤醒 | 0.62 | 0.15 |
| 掌控 | 0.53 | 0.17 |

**消融实验**：移除运动特征使唤醒r降至0.49；移除触控动力学使效价r降至0.51。

---

## 4. 生成式交互策略

### 4.1 状态空间

策略网络接收：

```
xₜ = u ⊕ eₜ ⊕ aₜ ⊕ μₜ₋₃:ₜ ⊕ σₜ₋₃:ₜ
```

- **u**（8维）：用户特质（年龄组、性别、自我报告风格、反应时间百分位）
- **eₜ**（6维）：环境状态（关卡、进度、资源、时间）
- **aₜ**（3维）：来自EDM的实时情绪
- **āₜ₋₃:ₜ**，**std(a)ₜ₋₃:ₜ**（6维）：过去30秒的情绪统计

总维度：8+6+3+6 = 23。

### 4.2 动作空间：交互参数

七个控制即时体验的连续参数：

| 参数 | 范围 | 含义 |
|------|------|------|
| 强度因子 | [0.5, 2.0] | 事件频率/密度的乘数 |
| 反馈强度 | [0.3, 1.5] | 触觉/视觉反馈的强度 |
| 节奏速度 | [0.6, 1.8] | 交互进程的速度 |
| 奖励稀缺度 | [0.0, 1.0] | 稀有奖励的概率 |
| 环境唤醒度 | [0.3, 1.0] | 背景刺激水平 |
| 节奏调节 | [0.8, 1.5] | 音频反馈的节奏/步调 |
| 挑战曲线 | [-1.0, 1.0] | 难度进展的陡峭程度 |

### 4.3 奖励函数

```
R = 0.4 · R_progress + 0.4 · R_emotion + 0.2 · R_retention
```

- **R_progress**：归一化的任务完成度和效率
- **R_emotion**：当前情绪 **aₜ** 与用户历史平均情绪 **μ_personal** 的余弦相似度
- **R_retention**：会话结束后持续参与的二元信号

### 4.4 训练流程

我们使用近端策略优化（PPO）算法，参数设置：

- 学习率：3e-4
- 裁剪系数：0.2
- GAE λ：0.95
- 熵系数：0.01
- 小批量大小：64
- 训练轮次：2000（仿真）+ 在线更新

训练在GPU服务器上集中进行；经验轨迹从分布式客户端上传。

---

## 5. 实验验证

### 5.1 仿真环境

我们基于预研数据开发了一个**模拟玩家模型**，该模型会对交互参数做出合成情绪响应。这使得在在线部署前可以快速迭代策略。

### 5.2 策略收敛

经过2000轮训练，策略收敛到稳定奖励，平均回合回报从0.32提升至0.78。情绪提升项稳步改善，表明成功学习了情绪感知交互。

### 5.3 自发特化

**实验设置**：我们向训练好的策略输入代表典型玩家的固定用户嵌入（不同性别、游戏风格偏好），并在1000个模拟步骤中记录7维动作向量。

**结果**：

- t-SNE可视化显示，不同用户群体之间存在**清晰分离**，且没有任何明确的聚类目标。
- 探索型用户获得的强度和节奏较低（平均强度=0.73），而战斗型用户获得的强度较高（平均强度=1.42）。
- 性别也导致不同聚类，女性用户平均获得较慢的节奏（平均节奏=0.91），男性用户平均获得较快的节奏（平均节奏=1.23）。

**量化分析**：对动作向量应用k-means聚类（k=4）产生的聚类与输入用户特质显著相关（性别χ²=34.2，p<0.001；风格χ²=41.5，p<0.001）。

### 5.4 消融实验：情绪奖励的作用

我们比较了两个训练好的策略：

- **完整AIP**：完整奖励函数
- **无情绪**：情绪系数设为0（仅进度+留存）

两者在模拟留存上表现相似，但**完整AIP策略产生的情绪波动性显著更低**（Levene检验，F=12.3，p<0.01）。这证实了情绪项对情绪稳定性的独立贡献，而不仅仅是留存的代理变量。

---

## 6. 讨论

### 6.1 理论意义

AIP重新定义了AI在交互系统中的角色：从**内容推荐者**到**体验生成者**。我们的结果表明，AI可以学习调节交互参数以引发期望的情绪状态，将先前的情感驱动RL研究从内容生成扩展到实时交互调制。

自发特化现象——同一个策略为不同用户群体产生性质迥异的交互风格——表明，个性化可以从情绪目标中涌现，而无需显式用户建模。这与体验驱动RL中的发现一致，即智能体为不同玩家类型学习不同策略。

### 6.2 "不同体验"为何涌现

策略发现，不同偏好的用户对不同交互模式有最优反应。由于动作空间是连续且高维的，一个聚类的最优策略可能在参数空间中与另一个聚类的最优策略相距甚远——远到足以让用户感知到两种体验在性质上不同。这扩展了情感驱动内容生成的概念，将其应用到交互动态领域。

### 6.3 与现有方法的比较

与**体验驱动的程序化内容生成**相比，AIP在更细的时间粒度上运行，并以情绪提升为目标进行优化，而非匹配目标情感模式。与**情感驱动RL**相比，AIP引入了连续情绪状态空间，并展示了跨用户群体的自发特化。

### 6.4 伦理考量

直接优化用户情绪引发伦理问题。谁决定目标情绪状态？这类系统是否会操纵用户？我们认为AIP应以**透明性和用户控制**为原则部署。在我们的实验中，用户被告知系统会根据他们的交互风格进行调整。未来研究应探讨披露情感优化目标的影响，并提供用户调整或关闭自适应功能的机制。

---

## 7. 局限性与未来工作

**当前局限性**：

- EDM的精度（r≈0.55-0.62）足以进行相对跟踪，但可能错过细微的情绪变化。
- 仿真结果需要通过大规模在线实验确认。
- 当前动作空间（7个参数）可能无法涵盖交互体验的所有维度。

**下一步工作**：

- 完成大规模在线实验（目标样本量N=500+）
- 收集关于感知体验差异的定性访谈数据
- 开源EDM实现和训练流程

**未来方向**（本系列后续论文计划）：

- **第二部分**：基于情绪数据模型的用户消费行为建模与AI干预策略
- **第三部分**：情绪引导的个性化世界观生成与平行宇宙

---

## 8. 结论

我们提出了**情感交互编程（AIP）**，一个将用户情绪作为AI驱动交互系统第一优先级优化目标的新范式。我们的贡献包括：

1. 一个将情绪形式化为可编程设计变量的理论框架。
2. 一个纯行为情绪感知方法（EDM），与用户自我报告情绪达到r>0.55的相关性。
3. 一个基于强化学习的实时交互参数控制策略网络。
4. 来自仿真的实证证据，证明策略在不同用户群体间自发特化。

初步结果支持该方法的可行性，并揭示策略会自发地为不同用户群体特化，产生性质迥异到足以被感知为不同体验的交互风格。

我们相信，AIP指向一个未来：交互系统不仅在"展示什么"上个性化，更在**"感受如何"**上个性化——用户情感与系统行为之间亲密的、即时同步的协同调节。

---

## 参考文献

[1] Barthet, M., Khalifa, A., Liapis, A., & Yannakakis, G. N. (2024). Closing the Affective Loop via Experience-Driven Reinforcement Learning Designers. *arXiv preprint arXiv:2408.06346*.

[2] Yannakakis, G. N., & Togelius, J. (2011). Experience-driven procedural content generation. *IEEE Transactions on Affective Computing*, 2(3), 147-161.

[3] Barthet, M., Khalifa, A., & Liapis, A. (2022). Play with Emotion: Affect-Driven Reinforcement Learning. *arXiv preprint arXiv:2208.12622*.

[4] Damasio, A. R. (1994). *Descartes' Error: Emotion, Reason, and the Human Brain*. Putnam.

[5] Wundt, W. (1896). *Grundriss der Psychologie*. Engelmann.

[6] Mehrabian, A., & Russell, J. A. (1974). *An approach to environmental psychology*. MIT Press.

[7] Russell, J. A., & Mehrabian, A. (1977). Evidence for a three-factor theory of emotions. *Journal of Research in Personality*, 11(3), 273-294.

[8] Lang, P. J. (1980). Behavioral treatment and bio-behavioral assessment: Computer applications. In *Technology in mental health care delivery systems* (pp. 119-137). Ablex.

[9] Wan, C., Labeau, M., & Clavel, C. (2024). EmoDynamiX: Emotional Support Dialogue Strategy Prediction by Modelling MiXed Emotions and Discourse Dynamics. *arXiv preprint arXiv:2408.08782*.

[10] Lin, L. I. (1989). A concordance correlation coefficient to evaluate reproducibility. *Biometrics*, 45(1), 255-268.

[11] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. *arXiv preprint arXiv:1707.06347*.

---

## 附录A：EDM特征定义

| 特征 | 计算窗口 | 含义 |
|------|----------|------|
| 点击频率 | 10秒 | 每秒点击次数 |
| 滑动速度 | 每次滑动 | 移动速度（像素/毫秒） |
| 多点触控比例 | 10秒 | 同时触控>1的时间比例 |
| 设备倾斜标准差 | 10秒 | 设备方向的标准差 |
| 重试延迟 | 每次失败 | 失败到下次尝试的时间 |
| 暂停时长 | 每次暂停 | 自愿暂停的长度 |
| 犹豫时间 | 10秒 | 刺激到响应之间的时间 |
| 路径效率 | 10秒 | 实际距离/最优距离 |
| 取消率 | 10秒 | 取消动作的比例 |
| 完成率 | 10秒 | 已完成任务占开始任务的比例 |
| 平均压力 | 10秒 | 平均触摸压力（若设备支持） |
| 压力标准差 | 10秒 | 触摸压力的方差 |

---

*注*：本文为进行中工作的技术报告。完整实验结果将在后续版本中呈现。源代码和匿名化数据将在发表后公开。