《知识发现》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:史忠植著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2011
  • ISBN:9787302239574
  • 页数:491 页
图书介绍:本书是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。本书全面而又系统地介绍了知识发现的重要概念、发展过程、方法和技术,内容包括决策树、支持向量机、迁移学习等。

第1章 绪论 1

1.1知识 1

1.2知识发现的过程 3

1.3知识发现的任务 5

1.4知识发现的方法 8

1.4.1统计方法 8

1.4.2机器学习 10

1.4.3神经计算 13

1.4.4可视化 14

1.5知识发现的对象 15

1.5.1数据库 15

1.5.2文本 16

1.5.3Web信息 17

1.5.4空间数据 18

1.5.5图像和视频数据 19

1.6知识发现系统 19

第2章 决策树 25

2.1归纳学习 25

2.2决策树学习 26

2.3CLS学习算法 29

2.4ID3学习算法 30

2.4.1信息论简介 30

2.4.2信息论在决策树学习中的意义及应用 30

2.4.3 ID3算法 31

2.4.4 ID3算法应用举例 32

2.4.5 C4.5算法 34

2.5决策树的改进算法 35

2.5.1二叉树判定算法 35

2.5.2按信息比值进行估计的方法 36

2.5.3按分类信息估值 37

2.5.4按划分距离估值的方法 37

2.6决策树的评价 38

2.7简化决策树 40

2.7.1简化决策树的动机 41

2.7.2决策树过大的原因 41

2.7.3控制树的大小 43

2.7.4修改测试属性空间 45

2.7.5改进测试属性选择方法 48

2.7.6对数据进行限制 50

2.7.7改变数据结构 51

2.8连续性属性离散化 55

2.9基于偏置变换的决策树学习算法BSDT 56

2.9.1偏置的形式化 56

2.9.2表示偏置变换 58

2.9.3算法描述 59

2.9.4过程偏置变换 60

2.9.5基于偏置变换的决策树学习算法BSDT 63

2.9.6经典案例库维护算法TCBM 63

2.9.7偏置特征抽取算法 64

2.9.8改进的决策树生成算法GSD 65

2.9.9实验结果 67

2.10单变量决策树的并行处理 68

2.10.1并行决策树算法 68

2.10.2串行算法的并行化 71

2.11归纳学习中的问题 73

第3章 支持向量机 74

3.1统计学习问题 74

3.1.1经验风险 74

3.1.2 VC维 75

3.2学习过程的一致性 75

3.2.1学习过程一致性的经典定义 75

3.2.2学习理论的重要定理 76

3.2.3 VC熵 76

3.3结构风险最小归纳原理 77

3.4支持向量机 80

3.4.1线性可分 80

3.4.2线性不可分 82

3.5核函数 83

3.5.1多项式核函数 83

3.5.2径向基函数 84

3.5.3多层感知机 84

3.5.4动态核函数 84

3.6邻近支持向量机 85

3.7极端支持向量机 88

第4章 迁移学习 93

4.1概述 93

4.2相似性关系 94

4.2.1语义相似性 95

4.2.2结构相似性 96

4.2.3样本相似性 96

4.2.4相似性计算 97

4.3归纳迁移学习 98

4.3.1基于采样的归纳迁移 98

4.3.2基于特征的归纳迁移 99

4.3.3基于参数的归纳迁移 100

4.4推导迁移学习 100

4.4.1基于采样的知识迁移 100

4.4.2基于特征的知识迁移 101

4.5主动迁移学习 101

4.5.1主动学习 101

4.5.2主动迁移学习算法 103

4.5.3迁移学习分类器 104

4.5.4决策函数 105

4.6多源领域知识的迁移学习 106

4.7强化学习中的迁移 107

4.7.1行为迁移 107

4.7.2知识迁移 109

第5章 聚类分析 111

5.1概述 111

5.2相似性度量 112

5.2.1相似系数 112

5.2.2属性的相似度量 115

5.3划分方法 116

5.3.1 k均值算法 116

5.3.2 k中心点算法 117

5.3.3大型数据库的划分方法 117

5.4层次聚类方法 119

5.4.1 BIRCH算法 120

5.4.2 CURE算法 120

5.4.3 ROCK算法 121

5.5基于密度的聚类 122

5.6基于网格方法 125

5.7基于模型方法 127

5.8模糊聚类 129

5.8.1传递闭包法 129

5.8.2动态直接聚类法 129

5.8.3最大树法 130

5.9蚁群聚类方法 132

5.9.1基本模型 132

5.9.2 LF算法 133

5.9.3基于群体智能的聚类算法CSI 134

5.9.4混合聚类算法CSIM 136

5.10聚类方法的评价 137

第6章 关联规则 140

6.1概述 140

6.2基本概念 141

6.3二值型关联规则挖掘 143

6.3.1 AIS算法 143

6.3.2 SETM算法 144

6.3.3 Apriori算法 146

6.3.4 Apriori算法的改进 148

6.4频繁模式树挖掘算法 149

6.5垂直挖掘算法 152

6.6挖掘关联规则的数组方法 155

6.7频繁闭项集的挖掘算法 157

6.8最大频繁项集挖掘算法 159

6.9增量式关联规则挖掘 163

6.10模糊关联规则的挖掘 166

6.11任意多表间关联规则的并行挖掘 169

6.11.1问题的形式描述 169

6.11.2单表内大项集的并行计算 170

6.11.3任意多表间大项集的生成 171

6.11.4跨表间关联规则的提取 172

6.12基于分布式系统的关联规则挖掘算法 173

6.12.1候选集的生成 174

6.12.2候选数据集的本地剪枝 175

6.12.3候选数据集的全局剪枝 178

6.12.4合计数轮流检测 179

6.12.5分布式挖掘关联规则的算法 180

第7章 粗糙集 184

7.1概述 184

7.1.1知识的分类观点 186

7.1.2新型的隶属关系 187

7.1.3概念的边界观点 188

7.2知识的约简 189

7.2.1一般约简 189

7.2.2相对约简 190

7.2.3知识的依赖性 191

7.3决策表的约简 192

7.3.1属性的依赖性 192

7.3.2一致决策表的约简 192

7.3.3非一致决策表的约简 199

7.4粗糙集的扩展模型 203

7.4.1可变精度粗糙集模型 204

7.4.2相似模型 205

7.4.3基于粗糙集的非单调逻辑 205

7.4.4与其他数学工具的结合 206

7.5粗糙集的实验系统 206

7.6粒度计算 208

7.6.1模糊集模型 209

7.6.2粗糙集模型 210

7.6.3商空间理论模型 210

7.6.4相容粒度空间模型 211

第8章 神经网络 215

8.1概述 215

8.1.1基本的神经网络模型 215

8.1.2神经网络的学习方法 216

8.2人工神经元及感知机模型 217

8.2.1基本神经元 217

8.2.2感知机模型 219

8.3前向神经网络 220

8.3.1前向神经网络模型 220

8.3.2多层前向神经网络的误差反向传播(BP)算法 221

8.3.3BP算法的若干改进 224

8.4径向基函数神经网络 228

8.4.1插值问题 229

8.4.2正则化问题 230

8.4.3RBF网络学习方法 232

8.5反馈神经网络 235

8.5.1离散型 Hopfield 网络 235

8.5.2连续型Hopfield网络 243

8.5.3Hopfield网络应用 245

8.5.4双向联想记忆模型 245

8.6随机神经网络 247

8.6.1模拟退火算法 247

8.6.2玻尔兹曼机 250

8.7自组织特征映射神经网络 253

8.7.1网络的拓扑结构 253

8.7.2网络自组织算法 254

8.7.3监督学习 255

第9章 贝叶斯网络 256

9.1概述 256

9.1.1贝叶斯网络的发展历史 256

9.1.2贝叶斯方法的基本观点 257

9.1.3贝叶斯网络在数据挖掘中的应用 258

9.2贝叶斯概率基础 260

9.2.1概率论基础 260

9.2.2贝叶斯概率 263

9.3贝叶斯学习理论 265

9.3.1几种常用的先验分布选取方法 266

9.3.2计算学习机制 269

9.3.3贝叶斯问题求解 270

9.4简单贝叶斯学习模型 273

9.4.1简单贝叶斯模型 273

9.4.2简单贝叶斯模型的提升 275

9.4.3提升简单贝叶斯分类的计算复杂性 277

9.5贝叶斯网络的建造 278

9.5.1贝叶斯网络的结构及建立方法 278

9.5.2学习贝叶斯网络的概率分布 279

9.5.3学习贝叶斯网络的网络结构 281

9.6贝叶斯潜在语义模型 284

9.7半监督文本挖掘算法 288

9.7.1网页聚类 288

9.7.2对含有潜在类别主题词的文档的类别标注 289

9.7.3基于简单贝叶斯模型学习标注和未标注样本 290

第10章 隐马尔可夫模型 295

10.1马尔可夫过程 295

10.2隐马尔可夫模型 296

10.3评估问题 299

10.3.1前向算法 299

10.3.2后向算法 300

10.4 Viterbi算法 301

10.5学习算法 303

10.6嵌人式隐马尔可夫模型 305

10.7基于状态驻留时间的分段概率模型 308

第11章 图挖掘 312

11.1概述 312

11.2图的基础知识 315

11.2.1图同构 316

11.2.2频繁子图 317

11.3频繁子图挖掘 317

11.3.1基于Apriori的算法 317

11.3.2基于模式增长的算法 319

11.4约束图模式挖掘 322

11.4.1特殊的子图挖掘 322

11.4.2基于约束的子结构模式挖掘 322

11.5图分类 323

11.5.1基于核的图分类方法 323

11.5.2最优核矩阵学习 324

11.5.3组合维核方法 324

11.6图模型 327

11.7图像标注模型 333

11.7.1混合生成式和判别式模型的图像语义标注框架 333

11.7.2构造集群分类器链 334

11.8社会网络分析 337

11.8.1中心度分析 337

11.8.2子群分析 339

11.8.3社会网络分析的应用 341

11.8.4社会网络分析软件 342

第12章 进化计算 346

12.1概述 346

12.2进化系统理论的形式模型 348

12.3达尔文进化算法 350

12.4基本遗传算法 351

12.4.1基本遗传算法的构成要素 351

12.4.2基本遗传算法的一般框架 352

12.5遗传算法的数学理论 355

12.5.1模式定理 355

12.5.2积木块假设 358

12.5.3隐并行性 359

12.6遗传算法编码方法 360

12.6.1二进制编码方法 361

12.6.2格雷码编码方法 361

12.6.3浮点数编码方法 362

12.6.4符号编码方法 363

12.6.5多参数级联编码方法 363

12.6.6多参数杂交编码方法 363

12.7适应度函数 364

12.8遗传操作 366

12.8.1选择算子 366

12.8.2杂交算子 369

12.8.3变异算子 371

12.8.4反转操作 372

12.9变长度染色体遗传算法 372

12.10小生境遗传算法 373

12.11混合遗传算法 374

12.12并行遗传算法 376

12.13分类器系统 378

第13章 分布式知识发现 384

13.1概述 384

13.2分布式计算技术 386

13.3同构海量数据挖掘 390

13.4异构海量数据挖掘 391

13.5任务调度 392

13.6基于主体的分布式知识发现 394

13.7基于网格的分布式知识发现 395

13.7.1Knowledge Grid 396

13.7.2Weka4WS 398

13.7.3DataMiningGrid 401

13.7.4GridMiner 403

13.8面向服务的分布式知识发现 405

13.8.1SODDM 405

13.8.2Anteater 406

13.9基于对等网的分布式知识发现 407

13.10基于云平台的分布式知识发现 409

第14章 Web知识发现 413

14.1概述 413

14.2Web知识发现的任务 416

14.2.1Web内容挖掘 417

14.2.2Web结构挖掘 418

14.2.3Web使用挖掘 419

14.3Web知识发现方法 420

14.3.1文本的特征表示 421

14.3.2TFIDF向量表示法 421

14.3.3特征子集的选取 424

14.4模型质量评价 425

14.5基于文本挖掘的汉语词性自动标注研究 427

14.6文本分类 428

14.7文本聚类 432

14.7.1层次凝聚法 432

14.7.2平面划分法 433

14.7.3简单贝叶斯聚类算法 434

14.7.4k-近邻聚类算法 435

14.7.5分级聚类 435

14.7.6基于概念的文本聚类 436

14.8文本摘要 438

14.9Web主题建模 439

14.10用户兴趣挖掘 445

第15章 认知神经科学知识发现 447

15.1概述 447

15.2脑功能成像分析 449

15.3同步振荡 450

15.4特征捆绑 453

15.4.1带噪声的神经元发放方式 455

15.4.2神经元输人的贝叶斯耦合方式 455

15.4.3神经元之间的竞争关系 457

15.5神经元集群仿真 459

参考文献 461