引言 多媒体接口的趋势 1
目录 1
0.1 为什么需要多媒体系统? 2
0.2 多媒体的目标:更好的通讯手段 2
0.2.1 计算机对计算机的通讯 2
0.2.2 人对人的通讯 3
0.2.3 计算机与人之间的通讯 4
0.3.1 多媒体 5
0.3.2 编码(encodings)和表达(representations) 5
0.3 术语 5
0.3.3 方式(mode)和模态(modality) 6
0.3.4 多通道 6
0.4 多媒体的现状 6
第一部分 模型、隐喻和范例 9
第一部分的引言 11
Ⅰ.1 引言 11
Ⅰ.2 单一的和混合的媒体格式之特性 12
Ⅰ.3 应用领域 12
Ⅰ.4 信息和用户的构造 12
1.2.1 语音超级媒体HyperPhone 14
1.2 多媒体的科研项目 14
第一章 随时间变化的多媒体的可用性问题 14
1.1 引言 14
1.2.2 多媒体音乐台(kiosk) 15
1.2.3 教学用超级媒体WITS 16
1.2.4 用户的任务 17
1.3 随时间变化的媒体之特性 17
1.3.1 通讯模型 17
1.3.2 灵活的交互动作和速度调整(pacing) 18
1.3.3 上下文敏感性问题 18
1.4.1 Hyper Phone 19
1.4 多媒体应用环境的体系结构 19
1.4.2 WITS 21
1.4.3 Kiosk 24
1.5 可用性问题 24
1.5.1 颗粒性(granularity) 25
1.5.2 复杂性(complexity) 25
1.5.3 执行链路 26
1.6 对随时间变化的接口的改进 29
1.5.4 领会用户需要 29
1.6.2 创作 30
1.6.1 语音的直接处理 30
1.6.3 为Hyper Phone增加智能(见注7) 31
1.7 有关的工作 35
1.8 小结 36
第二章 活动多媒体文档的模型 38
2.1 引言 38
2.2 文档结构 38
2.3 EtherPhone系统的多媒体能力 39
2.4.1 音频注释和编辑 40
2.4 多媒体注释 40
2.4.2 视频注释和编辑 42
2.4.3 注释模型方面的经验 42
2.5 路径模型 43
2.5.1 原本型文档系统 43
2.5.2 路径模型方面的经验 46
2.6 小结以及今后的工作 47
3.1.2 背景 48
3.1.1 主题 48
3.1 引言:一个正在研制中的多媒体接口 48
第三章 多媒体接口设计中的问题:媒体集成和接口中介* 48
3.1.3 术语 49
3.2 媒体集成 49
3.2.1 媒体“居住区(Ghettos)” 49
3.2.2 媒体偏见(Biases) 50
3.2.3 跨媒体的链路 52
3.3.1 超级文本模型方面的问题 53
3.3.2 指南的作用:通过着眼点(point of view)来集成 53
3.3 指南 53
3.3.3 特征化 54
3.3.4 “指南”如何才能支持用户 54
3.3.5 期望的目标 56
第四章 钢琴训练中的人机接口 57
4.1 引言 57
4.2 系统综述 57
4.3 内容和媒体的分离 59
4.4 演示系统 59
4.4.2 演示构造程序的优点 61
4.4.1 其它特性 61
4.5 对话 62
4.6 学生模型和超级媒体 63
4.7 小结 65
第五章 多媒体与链接现实的艺术 67
5.1 引言 67
5.2 程序的目标 67
5.4 和使用者之间的交互作用 68
5.5 屏幕设计 68
5.3 程序的使用者 68
5.6 戏剧的应用 70
5.7 教学设计 71
5.8 小结 72
第六章 用声音表达湍流:科学声频化一例 73
6.1 引言和背景 73
6.2 数据表达与消息的对比 74
6.3 流体中的湍流 74
6.4 在湍流研究中利用声音 75
6.4.1 表达 75
6.4.3 先例和感知能力 77
6.4.2 声音消息 77
6.5.1 描述流体特征的声音 78
6.5 湍流的声音参数 78
6.5.2 描述运动特征的声音 79
6.5.3 描述涡旋特征的声音 80
6.5.4 能量的消散 80
6.6 声音消息 81
6.6.1 声符:对表达的扩展和增强 81
6.6.3 声符和起表达作用的声音:设计指南 82
6.7 先例和可听度:同时使用表达用的声音和声音消息时的模型 82
6.6.2 声符:提供数据表达方式所不能提供的信息 82
6.7.1 结构 83
6.7.2 我们的系统所依据的音乐发展历史 83
第二部分 构成和组合 85
第二部分的引言 87
第七章 使用手的运动轨迹跟踪和语音识别的交互技术 89
7.1 引言 89
7.1.1 进行中的协合工程工作 89
7.1.2 在协合接口中的混合各种模态 91
7.2.2 三维轨迹跟踪 92
7.2 多种模态的混合 92
7.2.1 人与人对话的一些例子 92
7.2.3 增加语音识别 93
7.3 用于计算机辅助设计的输入技巧 94
7.3.1 使用手的三种方法 94
7.3.2 一个实验性的手势加语音的系统 97
7.3.3 三维设计的某些考虑 97
7.4 小结 100
8.1 人机接口中的限制 102
8.2 人机交互作用风格 102
第八章 多模态通讯:文本和手势的集成 102
8.2.1 自然语言交互过程对HCI来说“自然”吗? 103
8.2.2 直接处理“直接在屏幕上吗?” 103
8.2.3 形式语言 104
8.3 手势:只是自然语言与直接处理的组合还是更进一步? 104
8.3.1 HCI中为什么要用手势? 104
8.3.2 自然语言和指点的手势 105
8.4 在组合的HCI系统中的手势 105
8.5 手势接口的应用 106
8.5.4 手势和校正符号 107
8.5.3 手势和手写印刷体字母 107
8.5.1 计算机盲人用户的手势接口 107
8.5.2 手势驱动的中文和日文文本编辑程序 107
8.6 将来的方案:语义学的鼠标器/笔记本 109
第九章 根据不精确的多模态输入进行与应用无关的目标选择 110
9.1 引言 110
9.2 模型 111
9.3 实现 113
9.4 小结 114
10.1.1 背景 115
10.1 引言 115
第十章 语音系统中的多模态交互 115
10.1.2 语音识别系统 116
10.1.3 语音的语言系统所提出的特殊问题 117
10.2 语音语言系统的设计原则 119
10.2.1 用户可塑性 119
10.2.2 交互协议的风格 120
10.2.3 纠错用的多种模态 124
10.2.4 响应时间 127
10.2.5 任务特定的对话结构 129
10.2.6 多模态交互作用 130
10.3 小结 131
第十一章 探索数据分析用的立体声和层面声音的产生(注) 133
11.1 引言 133
11.2 数据的图解(iconographic)显示 133
11.3 用声音表达数据 136
11.4 有关的研究工作 136
11.5 立体声的声音显示 137
11.6 层面声音的产生 138
11.7 摘要 139
第三部分 前提和使之实现的技术 141
第三部分的引言 143
第十二章 可管理的媒体间编码(MIME)的推理适当性 145
12.1 引言 145
12.2 表达、用户计算和媒体 146
12.3 可管理的媒体间编码(MIME) 147
12.3.1 现有系统中的某些MIME 148
12.3.2 怎样才能断定用户已作了连接? 149
12.4.1 任务 150
12.4 利用MIME的推理适当性 150
12.4.2 系统 151
12.4.3 研究 154
12.4.4 问题和答案 156
12.5 讨论 161
12.6 小结 163
13.1.1 工具箱(Toolkits) 167
13.1.2 分类学(Taxonomies) 167
13.1 引言 167
第十三章 输入设备的设计空间* 167
13.1.3 性能研究 168
13.2 分析性的设计框架 168
13.3 生成设计空间 168
13.3.1 基本移动词汇表 169
13.3.2 组合操作符 170
13.3.3 输入设备的设计空间 171
13.4 设计空间中的测试点 172
13.4.1 表达性 172
13.4.2 有效性 173
13.4.4 带宽 174
13.4.3 足迹 174
13.4.5 实例:用鼠标器和头戴式鼠标器显示三维信息环境中的选择 176
13.5 结束语 177
第十四章 多媒体接口的理解和合成功能的综合 179
14.1 概述 179
14.2 理解和合成的映射模型 180
14.3 使用理解和合成功能的多媒体应用系统 182
14.3.1 自动演示系统 182
14.3.2 使用与说话者无关的语音识别的电话银行系统 185
14.4 讨论 193
第十五章 三维虚拟声显示 195
15.1 引言 195
15.2 为什么要用虚拟声显示 195
15.3 三维虚拟声显示的经历 198
15.3.1 心理声学的经历 198
15.3.2 实现的方法 200
15.4 NASA AMES的三维听觉显示项目 204
15.4.1 实时系统:Convolvotron 205
15.5 合成技术的心理物理学验证 207
15.5.1 验证使用个性化HRTF的静止声源 208
15.5.2 定位性能的声学要素 210
15.5.3 无经验的收听者和非个性化的HRTF 213
15.6 改进虚拟声显示:问题范围和研究课题 216
第十六章 触觉和视觉:力显示中的一些问题* 219
16.1 “砂纸”系统 219
16.1.1 为什么要产生纹理 220
16.1.2 对粗糙度感知过程的实验研究 221
16.1.3 纹理模拟起作用的证据 222
16.1.4 如何建立模拟的纹理 222
16.1.5 力显示要求实时的物理过程和动画能力 223
16.1.6 可感觉材料的小片是一些物体 224
16.1.7 环境应呈现出多大程度的物理过程真实性 224
16.1.8 结论:进入较高一级的描述 225
16.1.9 前景 225
16.2 力显示的控制问题 226
16.2.1 哪些方面会损坏感觉上的幻觉? 226
16.2.2 阻抗控制理论 226
16.2.3 产生感觉幻觉的方法 227
16.2.4 连接不稳定性和人的手臂 227
16.2.5 分析 229
16.2.6 有关人手臂行为的两个难题 232
16.2.7 结语 232
第四部分 体系结构 235
第四部分的引言 237
第十七章 多模态和多媒体接口的体系结构品质和原则 239
17.1 期望的结构品质 239
17.2 当前与将来的体系结构标准 240
17.3.1 统一访问的原则 241
17.3 体系结构原则 241
17.3.2 近于同构表达的折衷 243
17.4 小结 244
第十八章 人机交互作用和感知过程 245
18.1 交互作用和感知过程 245
18.2 自适应的直接处理 246
18.2.1 推动力 246
18.2.2 ADM系统的设计及其功能 247
18.2.3 ADM的黑板系统 248
18.2.4 黑板知识源 249
18.3.1 推动力及概述 251
18.3 听觉适应 251
18.3.2 听觉的音乐模型 252
18.3.3 声信号在ULS的分配 253
18.3.4 用户性能标准 254
18.4 自适应超级文本系统 255
18.4.1 超级助手 256
18.5 结束语 257
第十九章 未来用户接口成分的“操作系统” 259
19.1 概述 259
19.2 嵌入功能的发展 261
19.3 父控制 262
19.4 共享可视显示 262
19.5 调度输入事件 264
19.6 共享用户接口小工具 265
19.7 传递属性 266
19.8 重使用成分 266
19.9 规定成分间的连接 268
19.10 保存和恢复成分 268
19.11 增加新的成分类型 269
19.13 结束语 270
19.12 集成新的输入设备 270
第二十章 高度图符化的接口 271
20.1 引言 271
20.2 MIT的视觉计算研究组 271
20.2.1 Athena Muse 271
20.2.2 Muse的操作环境 272
20.3 表达 272
20.3.1 控制接口 273
20.3.4 复合型表达 274
20.3.3 中间表达 274
20.3.2 时间记号 274
20.3.5 实现 276
20.4 访问 279
20.5 同步 280
20.6 小结 280
第二十一章 人机对话的组合模型 283
21.1 引言 283
21.2 组合视图 284
21.2.1 用户接口及其特性 285
21.2.2 用户接口组成成分的组合视图 287
21.3 组合模型 288
21.3.1 模型化原语 289
21.3.2 组合规则 291
21.3.3 变换 292
21.3.4 其它规则 292
21.4 组合模型和多媒体-多模态接口设计 293
21.4.1 内容特性 294
21.4.2 通道特性 295
21.4.4 颗粒性特性 296
21.4.3 时态特性 296
21.4.5 定序特性 297
21.4.6 协调特性 297
21.4.7 其它特性 298
21.4.8 作为多媒体多模态接口框架的组合模型 298
21.5 实用的组合模型 298
21.5.1 生成和修改 299
21.5.2 集成和自然语言接口 301
21.6 小结 304
参考文献 306