当前位置:首页 > 工业技术
实感交互  人工智能下的人机交互技术
实感交互  人工智能下的人机交互技术

实感交互 人工智能下的人机交互技术PDF电子书下载

工业技术

  • 电子书积分:12 积分如何计算积分?
  • 作 者:Achintya K. Bhowmik
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111597827
  • 页数:315 页
图书介绍:过往的科幻现已成真,在人工智能时代现在我们与计算机、手机和娱乐设备的互动正在经历革命性的变化,基于触摸、手势、语音和视觉的自然人机交互正在逐渐替代使用键盘、鼠标和游戏手柄等的交互。显示设备也从单纯的显示设备转变为提供更具吸引力和沉浸式体验的双向交互设备。本书将深入讲解基于触摸、手势、语音和视觉等自然人机交互领域的技术、应用和未来趋势。本书适合从事人机交互领域工作的研究、设计、开发人员,相关专业师生,以及人工智能时代下对人机交互未来发展趋势有浓厚兴趣的人士阅读。
《实感交互 人工智能下的人机交互技术》目录

第1章 交互式显示的感知、理解与自然人机界面 1

1.1 引言 1

1.2 人类感知和理解 3

1.3 人机界面技术 7

1.3.1 过往的输入装置 7

1.3.2 触控式交互技术 9

1.3.3 声控交互 10

1.3.4 视控交互 12

1.3.5 多模态交互 15

1.4 “真实”3D交互显示探索 17

1.5 结语 19

参考文献 19

第2章 触觉感知 22

2.1 引言 22

2.2 触控技术简介 23

2.2.1 触摸屏 24

2.2.2 按大小和应用对触控技术进行分类 25

2.2.3 按材质和结构分类的触控技术 27

2.2.4 按检测物理量分类的触控技术 27

2.2.5 按感知能力分类的触控技术 28

2.2.6 触控技术的未来 29

2.3 触控技术的历史 29

2.4 电容式触控技术 32

2.4.1 投射电容式触控技术(编号1) 32

2.4.2 表面电容式触控技术(编号2) 39

2.5 电阻式触控技术 43

2.5.1 模拟电阻式触控技术(编号3) 43

2.5.2 数字多点电阻式触控技术(编号4) 48

2.5.3 模拟多点电阻式触控技术(编号5) 49

2.6 声波触控技术 51

2.6.1 表面声波触控技术(编号6) 51

2.6.2 声学脉冲识别触控技术(编号7) 53

2.6.3 色散信号技术触控技术(编号8) 56

2.7 光学触控技术 57

2.7.1 传统红外线触控技术(编号9) 57

2.7.2 多点触控红外技术(编号10) 61

2.7.3 摄像光学触控技术(编号11) 63

2.7.4 玻璃光学触控技术(平面散射检测)(编号12) 68

2.7.5 视觉光学触控技术(编号13) 69

2.8 嵌入式触控技术 72

2.8.1 外嵌互电容式(编号14) 74

2.8.2 混合互电容式(编号15) 74

2.8.3 内嵌互电容式(编号16) 76

2.8.4 内嵌式光感(编号17) 77

2.9 其他触控技术 79

2.9.1 压力感测(编号18) 79

2.9.2 组合触控技术 81

2.10 结语 82

2.11 附录 82

参考文献 83

第3章 用户界面中的声控式交互技术 88

3.1 引言 88

3.2 语音识别 91

3.2.1 语言的本质 91

3.2.2 声学模型和前端模式 92

3.2.3 使语音对齐隐马尔科夫模型(HMM)的过程 93

3.2.4 语言模型 93

3.2.5 探索:以每秒1000个单词完成填字游戏 95

3.2.6 训练声学和语言模型 96

3.2.7 为特定说话人识别系统调整发声和语音模型 96

3.2.8 “标准”系统外的其他系统 97

3.2.9 性能 98

3.3 语音识别的深度神经网络 98

3.4 硬件优化 100

3.4.1 低电量唤醒运算 101

3.4.2 特定运算的硬件优化 101

3.5 稳健语音识别的信号强化技术 102

3.5.1 稳健语音识别 102

3.5.2 单通道噪声抑制 102

3.5.3 多通道噪声抑制 104

3.5.4 噪声消除 104

3.5.5 回音消除 104

3.5.6 波束形成 105

3.6 声音生物计量 106

3.6.1 引言 106

3.6.2 声音生物计量面临的挑战 106

3.6.3 声音生物计量的新研究领域 107

3.7 语音合成 107

3.8 自然语言理解 110

3.8.1 混合主导对话 111

3.8.2 预设和填值技术的局限 113

3.9 多轮对话管理 116

3.10 规划和推理 119

3.10.1 技术挑战 119

3.10.2 语义分析和语篇表达 120

3.10.3 语用学 121

3.10.4 对话管理协作 122

3.10.5 规划和再规划 122

3.10.6 知识呈现与推理 123

3.10.7 监控 123

3.10.8 推荐阅读文献 124

3.11 问题解答 124

3.11.1 问题分析 125

3.11.2 寻找相关信息 125

3.11.3 解答与依据 126

3.11.4 呈现答案 126

3.12 分布式语音交互架构 126

3.12.1 分布式用户界面 127

3.12.2 分布的语音及语言技术 128

3.13 结语 129

参考文献 130

第4章 视觉传感与肢体动作交互技术 136

4.1 引言 136

4.2 图像技术:2D和3D 137

4.3 姿势交互 140

4.4 结语 146

参考文献 147

第5章 实时3D传感与结构光技术 149

5.1 引言 149

5.2 结构化图案汇编 150

5.2.1 2D伪随机汇编 151

5.2.2 二进制结构化汇编 152

5.2.3 多进制汇编 153

5.2.4 连续正弦相位汇编 154

5.3 结构光系统校准 157

5.4 数字条纹投射(DFP)技术下的3D传感示例 160

5.5 实时3D传感技术 162

5.5.1 数字光处理(DLP)技术的原理 162

5.5.2 实时3D数据采集 164

5.5.3 实时3D数据处理与可视化 165

5.5.4 实时3D传感实例 166

5.6 人机交互应用的实时3D传感 166

5.6.1 实时3D面部表情捕捉及其人机交互的意义 167

5.6.2 实时3D身体部分姿势捕捉及其人机交互的意义 167

5.6.3 人机交互意义的总结 168

5.7 最新发展 169

5.7.1 实时3D传感与自然2D彩色纹理捕捉 169

5.7.2 超高速3D传感 171

5.8 结语 173

参考文献 173

第6章 实时立体3D成像技术 178

6.1 引言 178

6.2 背景 179

6.3 立体匹配算法的结构 181

6.3.1 匹配成本计算 182

6.3.2 匹配成本聚合 183

6.4 特征分类 184

6.4.1 深度估计密度 184

6.4.2 优化策略 185

6.5 实施平台的分类 186

6.5.1 仅用CPU的方法 187

6.5.2 GPU提速的方法 187

6.5.3 硬件执行(FPGA, ASIC) 188

6.6 结语 190

参考文献 190

第7章 飞行时间法3D成像技术 194

7.1 引言 194

7.2 飞行时间法3D传感 194

7.3 脉冲飞行时间法 196

7.4 持续飞行时间法 196

7.5 计算方法 197

7.6 精度 199

7.7 局限性与改进 200

7.7.1 时差测距的挑战 200

7.7.2 理论局限 200

7.7.3 距离混叠 201

7.7.4 多径与散射 202

7.7.5 功率分配与优化 202

7.8 飞行时间法摄像组件 203

7.9 标准值 203

7.9.1 光的功率范围 203

7.9.2 背景光 205

7.10 技术发展最新水平 206

7.11 结语 207

参考文献 207

第8章 凝视跟踪 208

8.1 引言和研究动机 208

8.2 眼睛 210

8.3 眼动仪 212

8.3.1 眼动仪的种类 212

8.3.2 角膜反射法 214

8.4 反对和障碍 216

8.4.1 人为方面 216

8.4.2 室外应用 217

8.4.3 校准 217

8.4.4 精度 217

8.4.5 点石成金(Midas Touch)问题 218

8.5 凝视交互研究 218

8.6 凝视指向 219

8.6.1 解决点石成金问题 219

8.6.2 精度问题的对策 220

8.6.3 鼠标指向和凝视指向对比 221

8.6.4 鼠标和凝视协调 222

8.6.5 凝视指向反馈 224

8.7 凝视姿势 224

8.7.1 凝视姿势的概念 224

8.7.2 姿势检测算法 225

8.7.3 执行凝视姿势的人类能力 226

8.7.4 凝视姿势字母表 226

8.7.5 姿势从自然眼动中分离 227

8.7.6 凝视姿势的应用 228

8.8 作为情境的凝视 229

8.8.1 活动识别 229

8.8.2 阅读检测 231

8.8.3 注意力检测 232

8.8.4 应用凝视情境 233

8.9 展望 233

参考文献 234

第9章 感知用户界面的多模态输入 237

9.1 引言 237

9.2 多模态交互类型 237

9.3 多模态界面 238

9.3.1 触控输入 238

9.3.2 3D姿势 245

9.3.3 眼动跟踪和凝视 249

9.3.4 面部表情 250

9.3.5 脑机接口 251

9.4 多模态集成策略 252

9.4.1 框架式集成 253

9.4.2 合并式集成 254

9.4.3 程序性集成 254

9.4.4 符号/统计集成 254

9.5 多模态交互的可用性问题 255

9.6 结语 256

参考文献 257

第10章 生物计量学中的多模态交互:技术与可用性挑战 262

10.1 引言 262

10.1.1 身份确认动机 262

10.1.2 生物计量学 263

10.1.3 多模态生物计量学的应用特征 263

10.1.4 2D和3D人脸识别 264

10.1.5 多模态案例研究 266

10.1.6 适应于盲人对象 267

10.1.7 本章结构 268

10.2 对移动生物计量平台的应用剖析 268

10.2.1 面部分析 268

10.2.2 语音分析 271

10.2.3 模型适应 272

10.2.4 数据融合 273

10.2.5 移动平台实施 274

10.2.6 MoBio数据库和协议 275

10.3 案例研究:为视觉缺陷者进行可用性研究 276

10.3.1 头部姿势变化对性能的影响 276

10.3.2 用户交互模块:头部姿势质量评估 278

10.3.3 用户-交互模块:音频反馈机制 280

10.3.4 视觉缺陷者的可用性测试 282

10.4 讨论与结语 284

参考文献 285

第11章 迈向“真实的”3D交互 显示器 287

11.1 引言 287

11.2 生物视觉的起源 289

11.3 光场成像 294

11.4 迈向“真实的”3D视觉显示 300

11.5 与3D显示屏上的视觉内容交互 308

11.6 结语 310

参考文献 311

附录 缩略语 313

相关图书
作者其它书籍
返回顶部