第1章 商业数据分析基础 1
1.1 商业数据分析的本质 1
1.2 商业数据分析中心的建设 3
第2章 数据分析的武器库 5
2.1 数据挖掘简介 5
2.2 R语言简介 13
2.3 R与RStudio的下载和安装 15
2.4 在RStudio中安装包 20
2.5 练习题 22
第3章 R语言编程 23
3.1 R的基本数据类型 23
3.2 R的基本数据结构 24
3.3 R的程序控制 34
3.4 R的函数 41
3.5 R的日期与时间数据类型 42
3.6 在R中读写数据 43
3.7 练习题 47
第4章 R描述性统计分析与绘图 48
4.1 描述性统计分析 48
4.2 制图的步骤 60
4.3 R基础绘图包 63
4.4 ggplot2绘图 74
4.5 练习题 79
第5章 数据整合和数据清洗 80
5.1 数据整合 80
5.2 R中的高级数据整合 96
5.3 R中的抽样 101
5.4 R的数据清洗 103
5.5 练习题 110
第6章 统计推断基础 111
6.1 基本的统计学概念 111
6.2 假设检验与单样本t检验 116
6.3 双样本t检验 119
6.4 方差分析(分类变量和连续变量关系检验) 121
6.5 相关分析(两连续变量关系检验) 127
6.6 卡方检验(二分类变量关系检验) 134
6.7 练习题 137
第7章 客户价值预测:线性回归模型与诊断 139
7.1 相关性分析 139
7.2 线性回归 139
7.3 线性回归诊断 150
7.4 正则化方法 159
7.5 练习题 169
第8章 Logistic回归构建初始信用评级 170
8.1 Logistic回归的相关关系分析 170
8.2 Logistic回归模型及实现 171
8.3 最大熵模型与极大似然法估计 179
8.4 模型评估 187
8.5 练习题 193
第9章 使用决策树进行信用评级 195
9.1 决策树建模思路 195
9.2 决策树算法 197
9.3 在R中实现决策树 209
9.4 组合算法(Ensemble Learning) 214
9.5 练习题 234
第10章 神经网络 235
10.1 神经元模型 235
10.2 人工神经网络模型 237
10.3 单层感知器 239
10.4 BP神经网络 242
10.5 RBF神经网络 246
10.6 神经网络设计与R代码实现 253
10.7 练习题 261
第11章 分类器入门:最近邻域与贝叶斯网络 263
11.1 分类器的概念 263
11.2 KNN算法 264
11.3 朴素贝叶斯 269
11.4 贝叶斯网络 273
11.5 练习题 281
第12章 高级分类器:支持向量机 282
12.1 线性可分与线性不可分 282
12.2 线性可分支持向量机 283
12.3 线性支持向量机 291
12.4 非线性支持向量机 297
12.5 R中的支持向量机 303
12.6 练习题 306
第13章 连续变量的维度归约 307
13.1 维度归约方法概述 307
13.2 主成分分析 308
13.3 因子分析 314
13.4 奇异值分解 320
13.5 对应分析和多维尺度分析 326
13.6 练习题 334
第14章 聚类 336
14.1 聚类分析概述 337
14.2 聚类算法逻辑 337
14.3 层次聚类 339
14.4 k-means聚类 342
14.5 基于密度的聚类 346
14.6 聚类模型的评估 349
14.7 高斯混合模型(Gaussian Mixture Model) 352
14.8 客户分群 364
14.9 练习题 379
第15章 关联规则与推荐算法 380
15.1 长尾理论 380
15.2 关联规则 383
15.3 序贯模型 390
15.4 推荐算法与推荐系统 395
15.5 练习题 406
第16章 时间序列建模 407
16.1 认识时间序列 407
16.2 简单时间序列分析 409
16.3 平稳时间序列分析ARMA模型 419
16.4 非平稳时间序列分析ARIMA模型 434
第17章 特征工程(Feature Engineering)(博文视点官方网站下载) 446
17.1 特征工程概述 446
17.2 数据预处理(Data Preprocessing) 447
17.3 特征构造(Feature Construction) 460
17.4 特征抽取(Feature Extraction) 461
17.5 特征选择(Feature Selection) 466
第18章 R文本挖掘(博文视点官方网站下载) 471
18.1 文本挖掘 471
18.2 文本清洗 473
18.3 中文分词与文档模型 476
18.4 文本的特征选择及相关性度量 481
18.5 文本分类 487
18.6 主题模型 489
18.7 综合案例 495
附录A 数据说明(博文视点官方网站下载) 500