第1章 商业分析简介 1
1.1本书目的 3
1.2容易混淆的术语 3
1.3商业分析的发展动因 4
1.3.1计算机软件包和应用程序的增长 5
1.3.2整合各种数据源的可行性 5
1.3.3无限存储和计算能力的增长 6
1.3.4简单易用的编程工具和平台 6
1.3.5竞争激烈世界中的生存与发展 6
1.3.6全球化商业的复杂性 6
1.4商业分析的应用 6
1.4.1市场营销与销售 7
1.4.2人力资源 7
1.4.3产品设计 7
1.4.4服务设计 8
1.4.5客户服务和支持范围 8
1.5商业分析师的必备技能 8
1.5.1理解商业和商业问题 8
1.5.2理解数据分析技术和算法 9
1.5.3具备良好的计算机编程知识 9
1.5.4理解数据结构和数据存储/仓储技术 9
1.5.5了解统计学和数学的相关概念知识 9
1.6商业分析项目的分析过程 10
1.7商业分析框架 11
1.8小结 12
第2章 R语言概述 13
2.1数据分析工具 13
2.2 R语言安装 16
2.2.1安装R语言 16
2.2.2安装RStudio 17
2.2.3探索RStudio界面 18
2.3 R编程基础 19
2.3.1赋值 20
2.3.2创建向量 21
2.4 R语言对象类型 21
2.5 R语言的数据结构 23
2.5.1矩阵 23
2.5.2数组 24
2.5.3数据框 26
2.5.4列表 27
2.5.5因子 28
2.6小结 29
第3章 R语言数据分析 31
3.1读写数据 31
3.1.1从文本文件读取数据 32
3.1.2从Microsoft Excel文件读取数据 35
3.1.3从Web读取数据 37
3.2在R语言中使用控制结构 37
3.2.1 if-else 38
3.2.2 for循环 39
3.2.3 while循环 39
3.2.4循环功能 40
3.2.5在R语言中自编函数 47
3.3使用R语言软件包和库 48
3.4小结 49
第4章 描述性分析概述 51
4.1描述性分析 54
4.2总体和样本 54
4.3有关的统计参数 55
4.3.1均值 55
4.3.2中位数 57
4.3.3众数 59
4.3.4全距 59
4.3.5分位数 60
4.3.6标准差(Standard Deviation) 61
4.3.7方差(Variance) 64
4.3.8 R语言的summary命令 64
4.4数据的图形描述 65
4.4.1 R语言的plot命令 65
4.4.2直方图 67
4.4.3条形图 68
4.4.4箱线图 68
4.5数据框计算 69
4.6概率 73
4.6.1互斥事件的概率 74
4.6.2相互独立事件的概率 74
4.6.3非互斥事件概率 75
4.6.4概率分布 75
4.7小结 77
第5章 商业分析过程与数据探索 79
5.1商业分析过程 79
5.1.1第一阶段:理解商业问题 79
5.1.2第二阶段:收集和整合数据 79
5.1.3第三阶段:预处理数据 80
5.1.4第四阶段:探索和可视化数据 80
5.1.5第五阶段:选择建模技术和算法 81
5.1.6第六阶段:评估模型 81
5.1.7第七阶段:管理和审查报告 81
5.1.8第八阶段:部署模型 81
5.2理解商业问题 82
5.3收集和整合数据 82
5.3.1抽样 83
5.3.2变量选择 84
5.4预处理数据 85
5.4.1数据类型 85
5.4.2数据准备 86
5.4.3使用R语言进行数据预处理 87
5.5数据探索和数据可视化 91
5.5.1表格 92
5.5.2汇总表 92
5.5.3图形 93
5.5.4散点图矩阵 97
5.5.5数据转换 101
5.6使用建模技术和算法 102
5.6.1描述性分析 103
5.6.2预测分析 103
5.6.3机器学习 103
5.7评估模型 106
5.7.1训练数据分区 106
5.7.2测试数据分区 106
5.7.3验证数据分区 107
5.7.4交叉验证 107
5.7.5分类模型评估 108
5.7.6回归模型评估 111
5.8提交管理报告和审查 112
5.8.1描述问题 112
5.8.2使用的数据集 112
5.8.3执行数据清洗 112
5.8.4创建模型的方法 112
5.8.5模型部署前提条件 113
5.8.6模型部署和使用 113
5.8.7问题处理 113
5.9部署模型 113
5.10小结 114
第6章 监督机器学习:分类 115
6.1什么是分类?什么是预测? 115
6.2概率分类器模型 116
6.2.1示例 117
6.2.2 R语言朴素贝叶斯分类器 118
6.2.3朴素贝叶斯分类器的优点和局限性 119
6.3决策树 120
6.3.1递归分割决策树算法 121
6.3.2信息增益 121
6.3.3决策树示例 123
6.3.4决策树归纳 124
6.3.5树分类规则 127
6.3.6过拟合和欠拟合 127
6.3.7偏差和方差(Bias and Variance) 128
6.3.8避免过拟合误差和确定决策树生长的规模 129
6.4其他分类器类型 131
6.4.1 K-最近邻 131
6.4.2随机森林 132
6.5 R语言分类示例 134
6.6小结 138
第7章 无监督机器学习 139
7.1聚类概述 139
7.2什么是聚类 140
7.2.1两个记录之间的测量方法 141
7.2.2分类变量的距离度量 142
7.2.3混合型数据的距离度量 142
7.2.4两个聚类之间的距离 143
7.3层次聚类 145
7.3.1树状图 145
7.3.2层次聚类的局限性 145
7.4非层次聚类 146
7.4.1 k-means算法 146
7.4.2 k-means聚类的局限性 147
7.5聚类案例研究 148
7.5.1仅保留数据集中的相关变量 149
7.5.2从数据集中删除任何异常值 149
7.5.3数据归一化(Standardize the Data) 150
7.5.4计算数据点之间的距离 150
7.6关联规则 157
7.6.1选择规则 158
7.6.2关联规则生成示例 160
7.6.3解读结果 161
7.7小结 162
第8章 简单线性回归分析 163
8.1概述 163
8.2相关性 164
8.3假设检验 167
8.4简单线性回归分析 168
8.4.1回归假设 168
8.4.2简单线性回归方程 168
8.4.3 R语言创建简单回归方程 169
8.4.4检验回归假设 171
8.4.5结论 176
8.4.6预测响应变量 176
8.4.7补充说明 177
8.5小结 178
第9章 多元线性回归分析 179
9.1使用多元线性回归分析 180
9.1.1数据 181
9.1.2相关性 181
9.1.3构建模型 182
9.1.4验证回归假设 184
9.1.5多重共线性 188
9.1.6逐步多元线性回归分析 190
9.1.7全子集多元线性回归分析 191
9.1.8多元线性回归方程 193
9.1.9结论 193
9.2 R语言的替代方法 193
9.3预测响应变量 194
9.4 训练和测试模型 195
9.5交叉验证 196
9.6小结 198
第10章 逻辑回归分析 201
10.1逻辑回归 202
10.1.1数据 203
10.1.2构建模型 204
10.1.3模型拟合验证 207
10.1.4一般注意事项 208
10.1.5多重共线性 208
10.1.6离散 209
10.1.7逻辑回归分析结论 209
10.2模型训练和测试 209
10.2.1预测响应变量 211
10.2.2验证逻辑回归模型的其他替代方法 212
10.3多项逻辑回归分析 213
10.4正则化 214
10.5小结 220
第11章 大数据分析:介绍及未来趋势 221
11.1大数据生态系统 222
11.2大数据分析的未来趋势 225
11.2.1发展壮大的社交媒体 225
11.2.2创建数据湖 225
11.2.3企业用户手中的可视化工具 225
11.2.4规范性分析 225
11.2.5物联网 226
11.2.6人工智能 226
11.2.7全数据处理 226
11.2.8数据垂直应用和横向应用 226
11.2.9实时分析 226
11.2.10将数据分析工具交由企业用户使用 227
11.2.11将解决方案从一个工具迁移到另一个工具 227
11.2.12云无处不在 227
11.2.13数据库内分析 227
11.2.14内存分析 228
11.2.15 机器学习的自主服务 228
11.2.16安全和合规性 228
11.2.17医疗保健 228