实用预测分析PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:(美)拉尔夫·温特斯著;刘江一,陈瑶,刘旭斌译
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111603351
- 页数:372 页
第1章 预测分析入门 1
1.1 许多行业中都有预测分析 2
1.1.1 市场营销中的预测分析 2
1.1.2 医疗中的预测分析 2
1.1.3 其他行业中的预测分析 3
1.2 技能和角色在预测分析中都很重要 3
1.3 预测分析软件 4
1.3.1 开源软件 5
1.3.2 闭源软件 5
1.3.3 和平共处 5
1.4 其他有用的工具 5
1.4.1 超越基础知识 6
1.4.2 数据分析/研究 6
1.4.3 数据工程 6
1.4.4 管理 7
1.4.5 数据科学团队 7
1.4.6 看待预测分析的两种不同方式 7
1.5 R 8
1.5.1 CRAN 8
1.5.2 安装R语言 8
1.5.3 其他安装R语言的方法 8
1.6 预测分析项目是如何组织的 9
1.7 图形用户界面 10
1.8 RStudio入门 11
1.8.1 重新布局以保持和示例一致 11
1.8.2 部分重要面板的简要描述 12
1.8.3 创建新项目 13
1.9 R语言控制台 14
1.10 源代码窗口 15
1.11 第一个预测模型 16
1.12 第二个脚本 18
1.12.1 代码描述 19
1.12.2 predict函数 20
1.12.3 检验预测误差 21
1.13 R语言包 22
1.13.1 stargazer包 22
1.13.2 安装stargazer包 23
1.13.3 保存工作 24
1.14 参考资料 24
1.15 本章小结 24
第2章 建模过程 25
2.1 结构化方法的优点 25
2.2 分析过程方法 26
2.2.1 CRISP-DM和SEMMA 27
2.2.2 CRISP-DM和SEMMA的图表 27
2.2.3 敏捷过程 28
2.2.4 六西格玛和根本原因 28
2.2.5 是否需要数据抽样 28
2.2.6 使用所有数据 29
2.2.7 比较样本与群体 29
2.3 第一步:理解业务 30
2.4 第二步:理解数据 36
2.4.1 衡量尺度 36
2.4.2 单变量分析 38
2.5 第三步:数据准备 43
2.6 第四步:建模 44
2.6.1 具体模型说明 45
2.6.2 逻辑回归 46
2.6.3 支持向量机 47
2.6.4 决策树 47
2.6.5 降维技术 51
2.6.6 主成分 51
2.6.7 聚类 52
2.6.8 时间序列模型 52
2.6.9 朴素贝叶斯分类器 53
2.6.10 文本挖掘技术 54
2.7 第五步:评估 57
2.7.1 模型验证 58
2.7.2 曲线下面积 59
2.7.3 样本内和样本外测试、前进测试 60
2.7.4 训练/测试/验证数据集 60
2.7.5 时间序列验证 61
2.7.6 最佳冠军模型的基准测试 61
2.7.7 专家意见:人与机器 61
2.7.8 元分析 61
2.7.9 飞镖板方法 61
2.8 第六步:部署 62
2.9 参考资料 62
2.10 本章小结 62
第3章 输入和探索数据 64
3.1 数据输入 64
3.1.1 文本文件输入 65
3.1.2 数据库表格 66
3.1.3 电子表格文件 67
3.1.4 XML和JSON数据 67
3.1.5 生成你自己的数据 68
3.1.6 处理大型文件的技巧 68
3.1.7 数据整理 68
3.2 连接数据 69
3.2.1 使用sqldf函数 69
3.2.2 生成数据 70
3.2.3 检查元数据 71
3.2.4 使用内部连接和外部连接来合并数据 72
3.2.5 识别有多个购买记录的成员 73
3.2.6 清除冗余记录 74
3.3 探索医院数据集 74
3.3.1 str(df)函数的输出 74
3.3.2 View函数的输出 75
3.3.3 colnames函数 75
3.3.4 summary函数 76
3.3.5 在浏览器中打开文件 77
3.3.6 绘制分布图 77
3.3.7 变量的可视化绘图 78
3.4 转置数据帧 80
3.5 缺失值 84
3.5.1 建立缺失值测试数据集 84
3.5.2 缺失值的不同类型 85
3.5.3 纠正缺失值 87
3.5.4 使用替换过的值运行回归 90
3.6 替换分类变量 91
3.7 异常值 91
3.7.1 异常值为什么重要 91
3.7.2 探测异常值 92
3.8 数据转换 96
3.8.1 生成测试数据 97
3.8.2 Box-Cox转换 97
3.9 变量化简/变量重要性 98
3.9.1 主成分分析法 98
3.9.2 全子集回归 102
3.9.3 变量重要性 104
3.10 参考资料 106
3.11 本章小结 106
第4章 回归算法导论 107
4.1 监督学习模型和无监督学习模型 108
4.1.1 监督学习模型 108
4.1.2 无监督学习模型 108
4.2 回归技术 109
4.3 广义线性模型 110
4.4 逻辑回归 110
4.4.1 比率 111
4.4.2 逻辑回归系数 111
4.4.3 示例:在医疗中使用逻辑回归来预测疼痛阈值 112
4.4.4 GLM模型拟合 114
4.4.5 检验残差项 115
4.4.6 添加变量的分布图 116
4.4.7 p值及其效应量 117
4.4.8 p值及其影响范围 118
4.4.9 变量选择 119
4.4.10 交互 121
4.4.11 拟合优度统计量 123
4.4.12 置信区间和Wald统计 124
4.4.13 基本回归诊断图 124
4.4.14 分布图类型描述 124
4.4.1.5 拟合优度:Hosmer-Lemeshow检验 126
4.4.16 正则化 127
4.4.17 示例:ElasticNet 128
4.4.18 选择一个正确的Lambda 128
4.4.19 基于Lambda输出可能的系数 129
4.5 本章小结 130
第5章 决策树、聚类和SVM导论 131
5.1 决策树算法 131
5.1.1 决策树的优点 131
5.1.2 决策树的缺点 132
5.1.3 决策树的基本概念 132
5.1.4 扩展树 132
5.1.5 不纯度 133
5.1.6 控制树的增长 134
5.1.7 决策树算法的类型 134
5.1.8 检查目标变量 135
5.1.9 在rpart模型中使用公式符号 135
5.1.10 图的解释 136
5.1.11 输出决策树的文本版本 137
5.1.12 修剪 138
5.1.13 渲染决策树的其他选项 139
5.2 聚类分析 140
5.2.1 聚类分析应用于多种行业 140
5.2.2 什么是聚类 140
5.2.3 聚类的类型 141
5.2.4 k均值聚类算法 141
5.2.5 测量聚类之间的距离 143
5.2.6 聚类的肘形图 146
5.3 支持向量机 151
5.3.1 映射函数的简单说明 152
5.3.2 使用SVM分析消费者投诉数据 153
5.3.3 将非结构化数据转换为结构化数据 154
5.4 参考资料 157
5.5 本章小结 157
第6章 使用生存分析来预测和分析客户流失 158
6.1 什么是生存分析 158
6.1.1 依赖时间的数据 159
6.1.2 删失 159
6.2 客户满意度数据集 160
6.2.1 利用概率函数生成数据 161
6.2.2 创建矩阵图表 166
6.3 划分训练和测试数据 167
6.4 通过创建生存对象来设置阶段 168
6.5 检查生存曲线 170
6.5.1 更好的绘图 172
6.5.2 对比生存曲线 173
6.5.3 检验生存曲线之间的性别差异 174
6.5.4 检验生存曲线之间的教育程度差异 174
6.5.5 绘制客户满意度和服务电话数量曲线 175
6.5.6 添加性别来改进教育程度生存曲线 176
6.5.7 把服务电话转换成二进制变量 178
6.5.8 检验打过和没打过服务电话的客户 179
6.6 cox回归建模 179
6.6.1 我们的第一个模型 180
6.6.2 检查cox回归的输出 182
6.6.3 比例风险测试 182
6.6.4 比例风险绘图 183
6.6.5 获取cox生存曲线 184
6.6.6 绘制曲线 184
6.6.7 偏回归绘图 184
6.6.8 检查子集的生存曲线 186
6.6.9 比较性别差异 187
6.6.10 验证模型 188
6.6.11 决定一致性 191
6.7 基于时间的变量 191
6.7.1 改变数据以反映第二次调查 192
6.7.2 survSplit的工作原理 192
6.7.3 调整记录来模拟一次干预 193
6.7.4 运行基于时间的模型 195
6.8 比较模型 197
6.9 变量选择 197
6.9.1 合并交互作用项 199
6.9.2 比较各个备选模型的AIC 199
6.10 本章小结 200
第7章 使用购物篮分析作为推荐系统引擎 201
7.1 什么是购物篮分析 201
7.2 检查杂货明细 202
7.3 示例购物篮 203
7.4 关联规则算法 204
7.5 先例和后果 205
7.6 评估规则的准确性 205
7.6.1 支持度 206
7.6.2 计算支持度 206
7.6.3 置信度 206
7.6.4 提升度 206
7.7 准备原始数据文件进行分析 207
7.7.1 读取交易文件 207
7.7.2 capture.output函数 208
7.8 分析输入文件 208
7.8.1 分析发票日期 209
7.8.2 绘制日期 210
7.9 净化和清洗数据 211
7.9.1 移除不必要的字符空格 211
7.9.2 简化描述 212
7.10 自动移除颜色 212
7.10.1 colors()函数 212
7.10.2 清洗颜色 213
7.11 过滤单个商品交易 214
7.12 将结果合并到原始数据中 216
7.13 使用camelcase压缩描述 217
7.13.1 自定义函数映射到camelcase 217
7.13.2 提取最后一个单词 218
7.14 创建测试和训练数据集 219
7.14.1 保存结果 220
7.14.2 加载分析文件 220
7.14.3 确定后续规则 221
7.14.4 替换缺失值 222
7.14.5 制作最后的子集 222
7.15 创建购物篮交易文件 223
7.16 方法1:强制将数据帧转换为交易文件 223
7.16.1 检查交易文件 225
7.16.2 获取topN购买商品 225
7.16.3 寻找关联规则 226
7.16.4 检验规则摘要 228
7.16.5 检验规则质量并观察最高支持度 228
7.16.6 置信度和提升度指标 229
7.16.7 过滤大量规则 229
7.16.8 生成大量规则 232
7.16.9 绘制大量规则 232
7.17 方法2:创建一份物理交易文件 233
7.17.1 再次读取交易文件 234
7.17.2 绘制规则 237
7.17.3 创建规则的子集 237
7.17.4 文本聚类 239
7.18 转换为一个文献术语相关矩阵 240
7.18.1 移除稀疏术语 241
7.18.2 找出频繁术语 242
7.19 术语的k均值聚类 243
7.19.1 研究聚类1 243
7.19.2 研究聚类2 244
7.19.3 研究聚类3 244
7.19.4 研究聚类4 244
7.19.5 研究聚类5 245
7.20 预测聚类分配 245
7.20.1 使用flexclust预测聚类分配 245
7.20.2 运行k均值生成聚类 246
7.20.3 创建测试DTM 247
7.21 在聚类中运行apriori算法 249
7.22 总结指标 250
7.23 参考资料 250
7.24 本章小结 251
第8章 将医疗注册数据作为时间序列探索 252
8.1 时间序列数据 252
8.2 健康保险覆盖率数据集 253
8.3 准备工作 253
8.4 读入数据 253
8.5 从各列提取子集 254
8.6 数据的描述 254
8.7 目标时间序列变量 255
8.8 保存数据 256
8.9 确定所有子集组 256
8.10 将汇总数据合并回原始数据 257
8.11 检查时间间隔 258
8.12 按平均人数挑选最高级别的群体 259
8.13 使用lattice绘制数据 259
8.14 使用ggplot绘制数据 260
8.15 将输出发送到外部文件 261
8.16 检查输出 262
8.17 检测线性趋势 262
8.18 自动化回归 263
8.19 对系数进行排序 264
8.20 将分数合并回原始的数据帧 265
8.21 用趋势线绘制数据 265
8.22 绘制一个图表上的全部类别 268
8.23 使用ets函数执行一些自动预测 269
8.24 使用移动平均线来使数据平滑 269
8.25 简单移动平均线 270
8.26 验证SMA的计算值 271
8.27 指数移动平均线 271
8.27.1 使用函数计算EMA 272
8.27.2 选择平滑因子 273
8.28 使用ets函数 273
8.29 使用ALL AGES做预测 274
8.30 绘制预测值和实际值 275
8.31 forecast(fit)方法 276
8.32 用置信带来绘制未来的值 276
8.33 修改模型以包含趋势组件 277
8.34 对所有类别迭代运行ets函数 279
8.35 onestep生成的精度指标 280
8.36 比较UNDER 18 YEARS组的测试和训练 281
8.37 精度指标 282
8.38 参考资料 283
8.39 本章小结 283
第9章 Spark 284
9.1 关于Spark 284
9.2 Spark环境 285
9.2.1 聚类计算 285
9.2.2 并行计算 286
9.3 SparkR 286
9.4 构建第一个Spark数据帧 287
9.5 导入相同的笔记本 288
9.6 创建一个新的笔记本 289
9.7 从小开始变大 289
9.8 运行代码 290
9.9 运行初始化代码 291
9.10 解压缩皮马印第安人糖尿病数据集 291
9.10.1 检查输出 291
9.10.2 比较结果 293
9.10.3 检查缺失值 294
9.10.4 输入缺失值 294
9.10.5 检查替换值(读者练习) 295
9.10.6 缺失值处理完成 296
9.10.7 计算相关性矩阵 296
9.10.8 计算各列的均值 298
9.11 仿真数据 299
9.11.1 使用哪些相关性 299
9.11.2 检查对象类型 300
9.12 仿真糖尿病阴性结果的情况 301
9.13 运行汇总统计 302
9.14 保存你的工作 303
9.15 本章小结 303
第10章 用Spark探索大型数据集 304
10.1 对阳性数据进行一些探索性分析 304
10.1.1 显示Spark数据帧的内容 305
10.1.2 用本地绘图特性来绘图 305
10.1.3 直接对一个Spark数据帧运行两两相关性计算 306
10.2 清理和缓存内存中的表格 307
10.3 一些探索数据时有用的Spark函数 307
10.3.1 count和groupby 307
10.3.2 协方差和相关性函数 308
10.4 创建新列 309
10.5 构建一个交叉表 310
10.6 构建直方图 310
10.7 使用ggplot绘图 312
10.8 Spark SQL 312
10.8.1 注册表格 313
10.8.2 通过R接口发布SQL 313
10.8.3 用SQL来检查潜在异常值 314
10.8.4 创建一些汇总 314
10.8.5 用第三个查询选出一些潜在异常值 315
10.8.6 变成SQL API 315
10.8.7 SQL:用case语句计算一个新列 316
10.8.8 基于年龄段评估结果变量 317
10.8.9 计算所有变量的均值 318
10.9 从Spark回到R来探索数据 319
10.10 运行本地R包 320
10.10.1 使用pairs函数(在基本包中提供) 320
10.10.2 生成一个相关性图形 320
10.11 一些关于使用Spark的技巧 321
10.12 本章小结 321
第11章 Spark机器学习:回归和聚类模型 322
11.1 关于本章/你将学到什么 322
11.1.1 读取数据 322
11.1.2 运行数据帧的摘要并保存对象 323
11.2 将数据分割成训练和测试数据集 324
11.2.1 生成训练数据集 324
11.2.2 生成测试数据集 325
11.2.3 关于并行处理的说明 325
11.2.4 将误差引入测试数据集 325
11.2.5 生成分布的直方图 326
11.2.6 生成有误差的新测试数据 326
11.3 使用逻辑回归的Spark机器学习 327
11.3.1 检查输出 327
11.3.2 正则化模型 328
11.3.3 预测结果 329
11.3.4 绘制结果 330
11.4 运行测试数据的预测 331
11.5 合并训练和测试数据集 331
11.6 将这三个表提供给SQL 333
11.7 验证回归结果 333
11.8 计算拟合度的好坏 333
11.9 测试组的混淆矩阵 334
11.10 在Spark以外绘图 337
11.10.1 收集结果的样本 337
11.10.2 按outcome的值检查分布 337
11.10.3 注册一些额外的表 338
11.11 创建一些全局视图 338
11.11.1 用户练习 338
11.11.2 聚类分析 339
11.11.3 准备进行分析的数据 339
11.11.4 从全局视图读取数据 339
11.11.5 输入以前计算的平均值和标准偏差 340
11.11.6 连接平均值和训练数据的标准偏差 340
11.11.7 连接平均值和测试数据的标准偏差 341
11.12 归一化数据 342
11.12.1 显示输出 342
11.12.2 运行k均值模型 343
11.12.3 将模型拟合到训练数据 344
11.12.4 将模型拟合到测试数据 344
11.12.5 以图形方式显示聚类分配 345
11.13 通过聚类的平均值来描述它们的特征 347
11.14 本章小结 348
第12章 Spark模型:基于规则的学习 349
12.1 加载盘查(停止和搜身)数据集 349
12.2 读取表格 351
12.2.1 运行第一个单元 351
12.2.2 将整个文件读取到内存中 351
12.2.3 将变量转化为整数 352
12.3 发现重要特征 353
12.3.1 消除级别过多的因子 354
12.3.2 测试和训练数据集 354
12.3.3 检查分级数据 355
12.4 运行OneR模型 356
12.4.1 理解输出 356
12.4.2 构建新变量 358
12.4.3 在测试样本上运行预测 358
12.5 另一个OneR例子 359
12.6 使用rpart构建决策树 361
12.6.1 首先收集样本 361
12.6.2 使用rpart的决策树 361
12.6.3 绘制树 362
12.7 运行Python中的另一种模型 363
12.7.1 运行Python决策树 363
12.7.2 读取盘查表格 363
12.8 索引分类特征 364
12.8.1 映射到RDD 366
12.8.2 指定决策树模型 366
12.8.3 生成更大的树 367
12.8.4 可视化树 368
12.8.5 比较训练决策树和测试决策树 368
12.9 本章小结 370
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《分析化学》陈怀侠主编 2019
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《考研英语命题人终极预测8套卷 英语一》朱伟主编 2019
- 《行测资料分析》李永新主编 2019
- 《药物分析》贡济宇主编 2017
- 《土壤环境监测前沿分析测试方法研究》中国环境监测总站编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019