第1章 统计模式识别绪论 1
1.1 统计模式识别 1
1.1.1 引言 1
1.1.2 基本模型 2
1.2 解决模式识别问题的步骤 3
1.3 问题讨论 4
1.4 统计模式识别的方法 5
1.5 基本决策理论 6
1.5.1 最小错误贝叶斯决策规则 6
1.5.2 最小错误贝叶斯决策规则——拒绝分类 8
1.5.3 最小风险贝叶斯决策规则 10
1.5.4 最小风险贝叶斯决策规则——拒绝分类 11
1.5.5 Neyman-Pearson决策规则 11
1.5.6 最小最大决策 13
1.5.7 讨论 14
1.6 判别函数 15
1.6.1 引言 15
1.6.2 线性判别函数 16
1.6.3 分段线性判别函数 17
1.6.4 广义线性判别函数 17
1.6.5 小结 19
1.7 多重回归 19
1.8 本书梗概 21
1.9 提示及参考文献 21
习题 22
第2章 密度估计的参数法 24
2.1 引言 24
2.2 分布参数估计 24
2.2.1 估计法 24
2.2.2 预测法 25
2.3 高斯分类器 25
2.3.1 详述 25
2.3.2 高斯分类器插入估计的推导 27
2.3.3 应用研究举例 28
2.4 处理高斯分类器的奇异问题 29
2.4.1 引言 29
2.4.2 朴素贝叶斯 29
2.4.3 投影到子空间 30
2.4.4 线性判别函数 30
2.4.5 正则化判别分析 31
2.4.6 应用研究举例 32
2.4.7 拓展研究 33
2.4.8 小结 34
2.5 有限混合模型 34
2.5.1 引言 34
2.5.2 混合判别模型 35
2.5.3 正态混合模型的参数估计 36
2.5.4 正态混合模型协方差矩阵约束 38
2.5.5 混合模型分量的数量 39
2.5.6 期望最大化算法下的极大似然估计 40
2.5.7 应用研究举例 44
2.5.8 拓展研究 46
2.5.9 小结 46
2.6 应用研究 47
2.7 总结和讨论 49
2.8 建议 49
2.9 提示及参考文献 49
习题 50
第3章 密度估计的贝叶斯法 52
3.1 引言 52
3.1.1 基本原理 53
3.1.2 递归计算 53
3.1.3 比例性 54
3.2 解析解 54
3.2.1 共轭先验概率 54
3.2.2 方差已知的正态分布的均值估计 55
3.2.3 多元正态分布的均值及协方差矩阵估计 58
3.2.4 未知类先验概率的情形 62
3.2.5 小结 63
3.3 贝叶斯采样方案 64
3.3.1 引言 64
3.3.2 梗概 64
3.3.3 贝叶斯分类器的采样类型 65
3.3.4 拒绝采样 65
3.3.5 均匀比 66
3.3.6 重要性采样 67
3.4 马尔可夫链蒙特卡罗方法 69
3.4.1 引言 69
3.4.2 吉布斯(Gibbs)采样器 69
3.4.3 Metropolis-Hastings算法 75
3.4.4 数据扩充 78
3.4.5 可逆跳跃马尔可夫链蒙特卡罗方法 79
3.4.6 切片采样 80
3.4.7 MCMC举例——正弦噪声估计 82
3.4.8 小结 84
3.4.9 提示及参考文献 85
3.5 贝叶斯判别方法 85
3.5.1 标记训练数据 85
3.5.2 无类别标签的训练数据 86
3.6 连续蒙特卡罗采样 88
3.6.1 引言 88
3.6.2 基本方法 89
3.6.3 小结 92
3.7 变分贝叶斯方法 93
3.7.1 引言 93
3.7.2 描述 93
3.7.3 分解为因子的变分近似 95
3.7.4 简单的例子 96
3.7.5 模型选择中的运用 99
3.7.6 拓展研究与应用 100
3.7.7 小结 101
3.8 近似贝叶斯计算 101
3.8.1 引言 101
3.8.2 ABC拒绝采样 102
3.8.3 ABC MCMC采样 103
3.8.4 ABC总体蒙特卡罗采样 104
3.8.5 模型选择 105
3.8.6 小结 106
3.9 应用研究举例 106
3.10 应用研究 107
3.11 总结和讨论 108
3.12 建议 108
3.13 提示及参考文献 109
习题 109
第4章 密度估计的非参数法 111
4.1 引言 111
4.1.1 密度估计的基本性质 111
4.2 k近邻法 112
4.2.1 k近邻分类器 112
4.2.2 推导 114
4.2.3 距离度量的选择 116
4.2.4 最近邻法决策规则的性质 117
4.2.5 线性逼近排除搜索算法 118
4.2.6 分支定界搜索算法:kd树 120
4.2.7 分支定界搜索算法:ball树 126
4.2.8 剪辑方法 129
4.2.9 应用研究举例 130
4.2.10 拓展研究 131
4.2.11 小结 132
4.3 直方图法 132
4.3.1 直方图自适应数据 133
4.3.2 独立性假设(朴素贝叶斯) 133
4.3.3 Lancaster模型 134
4.3.4 最大权值相关树 134
4.3.5 贝叶斯网络 137
4.3.6 应用研究举例:朴素贝叶斯文本分类 139
4.3.7 小结 141
4.4 核函数方法 142
4.4.1 有偏估计 144
4.4.2 延伸到多元 145
4.4.3 平滑参数的选择 146
4.4.4 核函数的选择 148
4.4.5 应用研究举例 148
4.4.6 拓展研究 149
4.4.7 小结 150
4.5 用基函数展开 151
4.6 copula方法 152
4.6.1 引言 152
4.6.2 数学基础 152
4.6.3 copula函数 153
4.6.4 copula概率密度函数的估计 154
4.6.5 简单举例 155
4.6.6 小结 156
4.7 应用研究 157
4.7.1 比较研究 159
4.8 总结和讨论 159
4.9 建议 160
4.10 提示及参考文献 160
习题 161
第5章 线性判别分析 163
5.1 引言 163
5.2 两类问题算法 163
5.2.1 总体思路 163
5.2.2 感知准则 164
5.2.3 Fisher准则 167
5.2.4 最小均方误差法 168
5.2.5 拓展研究 172
5.2.6 小结 173
5.3 多类算法 174
5.3.1 总体思路 174
5.3.2 错误修正法 174
5.3.3 Fisher准则:线性判别分析 175
5.3.4 最小均方误差法 177
5.3.5 正则化 181
5.3.6 应用研究实例 181
5.3.7 拓展研究 182
5.3.8 小结 182
5.4 支持向量机 183
5.4.1 引言 183
5.4.2 两类线性可分数据问题 183
5.4.3 两类线性不可分数据问题 186
5.4.4 多类支持向量机 188
5.4.5 支持向量机回归 189
5.4.6 具体实施 191
5.4.7 应用研究举例 193
5.4.8 小结 194
5.5 logistic判别 194
5.5.1 两类问题 194
5.5.2 极大似然估计 195
5.5.3 多类logistic判别 196
5.5.4 应用研究举例 197
5.5.5 拓展研究 197
5.5.6 小结 198
5.6 应用研究 198
5.7 总结和讨论 198
5.8 建议 199
5.9 提示及参考文献 199
习题 199
第6章 非线性判别分析——核与投影法 202
6.1 引言 202
6.2 径向基函数 203
6.2.1 引言 203
6.2.2 模型的确定 204
6.2.3 指定函数的形式 205
6.2.4 中心位置 206
6.2.5 平滑参数 207
6.2.6 权值的计算 207
6.2.7 模型阶次的选择 209
6.2.8 简单径向基函数 210
6.2.9 一些调整 210
6.2.10 径向基函数的性质 212
6.2.11 应用研究举例 212
6.2.12 拓展研究 213
6.2.13 小结 214
6.3 非线性支持向量机 214
6.3.1 引言 214
6.3.2 二分类 214
6.3.3 核函数的类型 215
6.3.4 模型选择 216
6.3.5 多类支持向量机 217
6.3.6 概率估计 217
6.3.7 非线性回归 218
6.3.8 应用研究举例 219
6.3.9 拓展研究 219
6.3.10 小结 220
6.4 多层感知器 220
6.4.1 引言 220
6.4.2 多层感知器结构的确定 221
6.4.3 多层感知器权值的确定 222
6.4.4 多层感知器的建模能力 226
6.4.5 logistic分类 227
6.4.6 应用研究举例 228
6.4.7 贝叶斯多层感知器网络 229
6.4.8 投影寻踪 231
6.4.9 小结 231
6.5 应用研究 232
6.6 总结和讨论 234
6.7 建议 234
6.8 提示及参考文献 235
习题 235
第7章 规则和决策树归纳法 238
7.1 引言 238
7.2 决策树 238
7.2.1 引言 238
7.2.2 决策树的构造 241
7.2.3 拆分规则的选择 241
7.2.4 终止拆分过程 244
7.2.5 为终端节点分配类标签 245
7.2.6 决策树剪枝(含实施示例) 245
7.2.7 决策树构造方法 250
7.2.8 其他问题 251
7.2.9 应用研究举例 252
7.2.10 拓展研究 252
7.2.11 小结 253
7.3 规则归纳 253
7.3.1 引言 253
7.3.2 从决策树生成规则 255
7.3.3 用连续覆盖算法进行规则归纳 256
7.3.4 应用研究举例 259
7.3.5 拓展研究 260
7.3.6 小结 260
7.4 多元自适应回归样条 260
7.4.1 引言 260
7.4.2 递归分割模型 260
7.4.3 应用研究举例 263
7.4.4 拓展研究 263
7.4.5 小结 263
7.5 应用研究 264
7.6 总结和讨论 265
7.7 建议 265
7.8 提示及参考文献 266
习题 266
第8章 组合方法 268
8.1 引言 268
8.2 分类器组合方案特性 269
8.2.l特征空间 269
8.2.2 层次 272
8.2.3 训练程度 273
8.2.4 成员分类器的形式 273
8.2.5 结构 274
8.2.6 优化 274
8.3 数据融合 274
8.3.1 体系结构 275
8.3.2 贝叶斯方法 276
8.3.3 奈曼-皮尔逊(Neyman-Pearson)公式 277
8.3.4 可训练规则 278
8.3.5 固定规则 278
8.4 分类器组合方法 279
8.4.1 乘积规则 279
8.4.2 和式规则 280
8.4.3 最小、最大及中值组合分类器 281
8.4.4 多数表决 281
8.4.5 Borda数 282
8.4.6 在类别预测上训练组合分类器 282
8.4.7 叠加归纳 284
8.4.8 专家混合器 284
8.4.9 bagging 286
8.4.10 boosting 287
8.4.11 随机森林 289
8.4.12 模型平均 290
8.4.13 方法小结 295
8.4.14 应用研究举例 295
8.4.15 拓展研究 296
8.5 应用研究 297
8.6 总结和讨论 297
8.7 建议 298
8.8 提示及参考文献 298
习题 299
第9章 性能评价 300
9.1 引言 300
9.2 性能评价 300
9.2.1 性能测度 300
9.2.2 判别力 301
9.2.3 可靠性 306
9.2.4 用于性能评价的ROC曲线 307
9.2.5 总体漂移和传感漂移 311
9.2.6 应用研究举例 312
9.2.7 拓展研究 313
9.2.8 小结 314
9.3 分类器性能的比较 315
9.3.1 哪种方法最好 315
9.3.2 统计检验 316
9.3.3 错分代价不定情况下的比较规则 316
9.3.4 应用研究举例 318
9.3.5 拓展研究 318
9.3.6 小结 319
9.4 应用研究 319
9.5 总结和讨论 319
9.6 建议 320
9.7 提示及参考文献 320
习题 320
第10章 特征选择与特征提取 322
10.1 引言 322
10.2 特征选择 323
10.2.1 引言 323
10.2.2 对特征选择方法的表述 326
10.2.3 评估方法 326
10.2.4 选择特征子集的搜索算法 333
10.2.5 全搜索:分支定界法 334
10.2.6 顺序搜索 337
10.2.7 随机搜索 340
10.2.8 马尔可夫覆盖 340
10.2.9 特征选择的稳定性 341
10.2.10 应用研究举例 342
10.2.11 拓展研究 343
10.2.12 小结 343
10.3 线性特征提取 344
10.3.1 主成分分析 344
10.3.2 Karhunen-Loève变换 351
10.3.3 应用研究举例 357
10.3.4 拓展研究 357
10.3.5 小结 358
10.4 多维尺度分析 358
10.4.1 经典尺度分析 358
10.4.2 计量多维尺度 359
10.4.3 次序尺度分析 360
10.4.4 算法 362
10.4.5 用于特征提取的多维尺度分析 363
10.4.6 应用研究举例 364
10.4.7 拓展研究 364
10.4.8 小结 365
10.5 应用研究 365
10.6 总结和讨论 366
10.7 建议 367
10.8 提示及参考文献 367
习题 368
第11章 聚类 371
11.1 引言 371
11.2 分层聚类法 372
11.2.1 单链接方法 372
11.2.2 完全链接方法 374
11.2.3 平方和方法 375
11.2.4 通用合并算法 375
11.2.5 分层聚类法的性质 376
11.2.6 应用研究举例 376
11.2.7 小结 377
11.3 快速分类 377
11.4 混合模型 378
11.4.1 模型描述 378
11.4.2 应用研究举例 379
11.5 平方和方法 380
11.5.1 聚类准则 380
11.5.2 聚类算法 381
11.5.3 矢量量化 385
11.5.4 应用研究举例 392
11.5.5 拓展研究 393
11.5.6 小结 393
11.6 谱聚类 393
11.6.1 图论初步 393
11.6.2 相似矩阵 395
11.6.3 聚类应用 396
11.6.4 谱聚类算法 396
11.6.5 拉普拉斯矩阵的形式 396
11.6.6 应用研究举例 397
11.6.7 拓展研究 398
11.6.8 小结 398
11.7 聚类有效性 398
11.7.1 引言 398
11.7.2 统计检验 399
11.7.3 缺失类结构 400
11.7.4 各聚类的有效性 400
11.7.5 分级聚类 401
11.7.6 各单聚类的有效性 401
11.7.7 划分 402
11.7.8 相关准则 402
11.7.9 选择聚类个数 404
11.8 应用研究 405
11.9 总结和讨论 407
11.10 建议 408
11.11 提示及参考文献 409
习题 410
第12章 复杂网络 411
12.1 引言 411
12.1.1 特征 411
12.1.2 属性 412
12.1.3 问题阐述 414
12.1.4 描述性特征 414
12.1.5 概要 414
12.2 网络的数学描述 415
12.2.1 图矩阵 415
12.2.2 连通性 416
12.2.3 距离测度 416
12.2.4 加权网络 416
12.2.5 中心测度 416
12.2.6 随机图 417
12.3 社区发现 417
12.3.1 聚类方法 418
12.3.2 Girvan-Newman算法 419
12.3.3 模块化方法 421
12.3.4 局部模块化 422
12.3.5 小集团过滤 423
12.3.6 应用研究举例 424
12.3.7 拓展研究 424
12.3.8 小结 424
12.4 链路预测 425
12.4.1 链路预测方法 425
12.4.2 应用研究举例 426
12.4.3 拓展研究 427
12.5 应用研究 427
12.6 总结和讨论 428
12.7 建议 428
12.8 提示及参考文献 428
习题 428
第13章 其他论题 429
13.1 模型选择 429
13.1.1 相互独立的训练集与测试集 429
13.1.2 交叉验证 430
13.1.3 贝叶斯观点 430
13.1.4 Akaike信息准则 430
13.1.5 最短描述长度 431
13.2 缺值数据 432
13.3 离群值检测和鲁棒方法 432
13.4 连续变量与离散变量的混合 433
13.5 结构风险最小化和Vapnik-Chervonenkis维数 434
13.5.1 期望风险边界 434
13.5.2 Vapnik-Chervonenkis维数 435
参考文献 436