《人机自然交互》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:张有为等著
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2004
  • ISBN:7118035440
  • 页数:256 页
图书介绍:本书介绍人机自然交互,从听觉和视觉角度着重研究对交互对象的识别、对交互内容的识别、双模态识别与融合、双模态数据库等。

目录 1

1.1 从人机交互到人机自然交互 1

1.1.1 人机交互和人机自然交互 1

第1章 导论 1

1.1.2 人机自然交互的主要功能与特征 2

1.1.3 人机自然交互发展的社会与科学技术背景 3

1.2 自然信源与人造信息的接口界面 3

1.2.1 自然信源 3

1.2.2 人造信息 4

1.2.3 进一步的思考 5

1.3 识别交互对象 6

1.3.1 说话人识别 6

1.3.2 说话人识别的途径 7

1.4.1 识别交互内容是交互中的核心问题 11

1.4 识别交互内容 11

1.4.2 对自然语言的理解 15

1.5 听觉-视觉双模态融合 16

1.5.1 融合问题 16

1.5.2 融合策略 16

1.5.3 融合策略与识别算法 17

1.6 对人类情态的感知 18

1.6.1 听觉-视觉双模态情态识别问题 18

1.6.2 显性信道和隐性信道 19

1.7 多模态网络环境、定位跟踪和数据库 20

1.7.1 人机自然交互系统 20

1.7.2 网络环境 21

1.7.3 对说话人的定位与跟踪 22

1.7.4 双模态数据库 23

1.8.2 军事上的应用及民用前景 25

1.8.1 人机自然交互的实现将引发变革 25

1.8 人机自然交互带来的生产方式、工作方式和生活方式的变革 25

第2章 视觉——说话人识别与人脸识别 27

2.1 说话人识别问题 27

2.2 人脸图像的预处理 29

2.2.1 人脸图像的检测与定位 30

2.2.2 人脸图像的标准化 30

2.3 人脸图像的特征提取与识别 37

2.3.1 几何特征法 38

2.3.2 特征脸法和局部特征法 39

2.3.3 弹性模型法 39

2.3.4 神经网络法 40

2.3.5 不变矩特征法 40

2.4 人脸特征自适应主元提取法 42

2.4.1 统计主元分析法 43

2.4.2 自适应主元提取法 43

2.4.3 自适应主元提取法的收敛性分析 45

2.4.4 应用实例 49

2.5 人脸图像奇异值特征提取法 55

2.5.1 奇异值特征 55

2.5.2 奇异值降维压缩 56

2.5.3 应用实例 57

2.6 最佳鉴别向量特征提取法 63

2.6.1 核函数Fisher鉴别 63

2.6.2 广义核函数Fisher最佳鉴别 66

2.7 人脸识别图像分层算法及应用实例 72

2.7.1 用于人脸识别的人脸图像分层算法 73

2.7.2 用于人脸识别的人脸图像快速分层算法 80

3.1 语音识别问题 86

第3章 听觉——说话人识别、语音识别与理解 86

3.1.1 语音识别技术的发展 86

3.1.3 语音识别系统的基本构成 89

3.1.2 语音识别系统的分类 89

3.2.1 语音信号的数字化 90

3.2 语音信号的特征 90

3.2.2 语音信号的特点 91

3.2.3 语音信号的短时分析 92

3.3 语音识别的参量 94

3.3.1 语音信号的线性预测分析 94

3.3.2 线性预测倒谱系数 97

3.3.3 MFCC系数 98

3.4 特定人小词表语音识别的动态规划算法 100

3.4.1 动态时间弯折算法原理 100

3.4.2 动态时间弯折的高效算法 103

3.5 非特定人语音识别的隐马尔柯夫算法 104

3.5.1 隐马尔柯夫过程应用原理 104

3.5.2 前向概率和后向概率——HMM的输出概率计算 107

3.5.3 识别算法——Viterbi解码 109

3.5.4 HMM参量训练的Baum-Welch算法 110

3.5.5 多观察序列的训练算法 112

3.5.6 其他形式的HMM 113

3.6 说话人自适应 114

3.6.1 说话人自适应概述 114

3.6.2 MAP算法 115

3.6.3 MLLR算法 117

3.7 大词表连续语音识别 120

3.7.1 搜索算法问题描述 120

3.7.2 动态规划搜索算法 121

3.7.3 剪枝操作 122

3.7.4 语言模型预判 123

3.7.5 基于词图的动态规划搜索算法 124

3.7.6 词对近似 125

3.8.1 说话人识别问题 126

3.8 说话人识别 126

3.8.2 说话人识别的方法 127

3.9.1 人工神经网络法 128

3.9 语音识别的其他算法 128

3.9.2 支持向量机法 135

3.9.3 差别子空间法 138

3.10.1 语音识别和嵌入式系统 141

3.10 嵌入式系统中的语音识别 141

3.10.2 算法的定点化 141

3.10.3 系统实现流程 142

3.11 应用系统实例 142

3.11.1 剑桥大学的语音识别工具包HTK 142

3.11.2 卡内基·梅隆大学的语音识别软件包Sphinx 144

3.11.3 五邑大学的噪声环境语音识别命令控制器 145

第4章 视觉——唇读与识别 147

4.1 唇读问题 147

4.1.1 唇读是语音的视觉表征 147

4.1.2 McGurk效应 148

4.1.3 唇读感知系统的结构框图 148

4.2 图像的预处理 150

4.2.1 人脸图像主要特征位置的标定 150

4.2.2 人脸图像的跟踪 154

4.2.3 唇动定位和跟踪 155

4.3 唇动特征的提取 162

4.3.1 唇动特征的各种描述方法 163

4.3.2 函数可变模板灰度轮廓向量表征法 164

4.3.3 灰度轮廓权向量差分形状特征 173

4.4 唇读识别 174

4.4.1 视觉语音识别一般问题 174

4.4.2 DTW法 176

4.4.3 HMM法 179

4.4.4 TDNN模型法 179

第5章 听觉-视觉——双模态语音识别与融合 180

5.1 双模态语音识别问题 180

5.2 双模态语音识别中的视觉语音特征区域定位 181

5.2.1 基于线性方法的视觉语音特征区域定位 181

5.2.2 基于支持向量机方法的视觉语音特征区域定位 186

5.2.3 基于核函数映射方法的视觉语音特征区域定位 188

5.3 视觉语音序列特征提取 193

5.3.1 变换处理 194

5.3.3 最大似然线性变换 197

5.3.2 基于线性区别分析的特征参量投影 197

5.4 基于隐马尔柯夫模型的双模态早期融合 200

5.5 基于隐马尔柯夫模型的双模态晚期融合 201

5.5.1 状态同步的双模态晚期融合中的HMM 201

5.5.2 音节同步的双模态晚期融合中的HMM 202

第6章 听觉-视觉——双模态语音识别数据库 205

6.1 多模态人机自然交互技术与数据库 205

6.2 双模态语音识别数据库的现状与发展前景 208

6.3 双模态数据库数据采集 211

6.3.1 数据库的语料设计与选择 211

6.3.2 数据库的采集 214

6.3.3 数据库原始数据的切分 216

6.4 双模态数据库管理系统设计 218

6.4.1 双模态数据库管理技术 219

6.4.2 双模态数据库的系统结构 220

6.4.3 双模态数据库的结构设计 223

6.4.4 数据库客户端应用程序设计 227

6.5 CAVBSR-WUIIS(1.0)数据库的使用与操作设计 229

6.5.1 CAVBSR-WUIIS(1.0)数据库系统的主界面及显示 229

方式设置 229

6.5.2 CAVBSR-WUIIS(1.0)数据库系统的各种查询 232

6.5.3 CAVBSR-WUIIS(1.0)数据库系统的记录添加 235

6.5.4 CAVBSR-WUIIS(1.0)数据库系统的记录的删除 237

6.6 双模态数据库在人机自然交互及身份认证中的应用 238

6.6.1 双模态数据库在唇读与人脸特征定位中的应用 239

6.6.2 双模态数据库在身份认证中的应用 241

6.6.3 CAVBSR-WUIIS(1.0)数据库的应用 243

6.7 数据库的扩展 245

参考文献 246