当前位置:首页 > 社会科学
实用预测分析
实用预测分析

实用预测分析PDF电子书下载

社会科学

  • 电子书积分:13 积分如何计算积分?
  • 作 者:(美)拉尔夫·温特斯著;刘江一,陈瑶,刘旭斌译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111603351
  • 页数:372 页
图书介绍:本书详细讲述了预测分析的原理、技术及实现,并深入讨论了大数据。重点着眼于掌握提高开发、实行预测分析所需的6项关键实用技能。本书还提供了来自市场、医疗和零售等行业的真实案例,有助于读者针对产品实现自己的预测分析。
《实用预测分析》目录
标签:预测 分析

第1章 预测分析入门 1

1.1 许多行业中都有预测分析 2

1.1.1 市场营销中的预测分析 2

1.1.2 医疗中的预测分析 2

1.1.3 其他行业中的预测分析 3

1.2 技能和角色在预测分析中都很重要 3

1.3 预测分析软件 4

1.3.1 开源软件 5

1.3.2 闭源软件 5

1.3.3 和平共处 5

1.4 其他有用的工具 5

1.4.1 超越基础知识 6

1.4.2 数据分析/研究 6

1.4.3 数据工程 6

1.4.4 管理 7

1.4.5 数据科学团队 7

1.4.6 看待预测分析的两种不同方式 7

1.5 R 8

1.5.1 CRAN 8

1.5.2 安装R语言 8

1.5.3 其他安装R语言的方法 8

1.6 预测分析项目是如何组织的 9

1.7 图形用户界面 10

1.8 RStudio入门 11

1.8.1 重新布局以保持和示例一致 11

1.8.2 部分重要面板的简要描述 12

1.8.3 创建新项目 13

1.9 R语言控制台 14

1.10 源代码窗口 15

1.11 第一个预测模型 16

1.12 第二个脚本 18

1.12.1 代码描述 19

1.12.2 predict函数 20

1.12.3 检验预测误差 21

1.13 R语言包 22

1.13.1 stargazer包 22

1.13.2 安装stargazer包 23

1.13.3 保存工作 24

1.14 参考资料 24

1.15 本章小结 24

第2章 建模过程 25

2.1 结构化方法的优点 25

2.2 分析过程方法 26

2.2.1 CRISP-DM和SEMMA 27

2.2.2 CRISP-DM和SEMMA的图表 27

2.2.3 敏捷过程 28

2.2.4 六西格玛和根本原因 28

2.2.5 是否需要数据抽样 28

2.2.6 使用所有数据 29

2.2.7 比较样本与群体 29

2.3 第一步:理解业务 30

2.4 第二步:理解数据 36

2.4.1 衡量尺度 36

2.4.2 单变量分析 38

2.5 第三步:数据准备 43

2.6 第四步:建模 44

2.6.1 具体模型说明 45

2.6.2 逻辑回归 46

2.6.3 支持向量机 47

2.6.4 决策树 47

2.6.5 降维技术 51

2.6.6 主成分 51

2.6.7 聚类 52

2.6.8 时间序列模型 52

2.6.9 朴素贝叶斯分类器 53

2.6.10 文本挖掘技术 54

2.7 第五步:评估 57

2.7.1 模型验证 58

2.7.2 曲线下面积 59

2.7.3 样本内和样本外测试、前进测试 60

2.7.4 训练/测试/验证数据集 60

2.7.5 时间序列验证 61

2.7.6 最佳冠军模型的基准测试 61

2.7.7 专家意见:人与机器 61

2.7.8 元分析 61

2.7.9 飞镖板方法 61

2.8 第六步:部署 62

2.9 参考资料 62

2.10 本章小结 62

第3章 输入和探索数据 64

3.1 数据输入 64

3.1.1 文本文件输入 65

3.1.2 数据库表格 66

3.1.3 电子表格文件 67

3.1.4 XML和JSON数据 67

3.1.5 生成你自己的数据 68

3.1.6 处理大型文件的技巧 68

3.1.7 数据整理 68

3.2 连接数据 69

3.2.1 使用sqldf函数 69

3.2.2 生成数据 70

3.2.3 检查元数据 71

3.2.4 使用内部连接和外部连接来合并数据 72

3.2.5 识别有多个购买记录的成员 73

3.2.6 清除冗余记录 74

3.3 探索医院数据集 74

3.3.1 str(df)函数的输出 74

3.3.2 View函数的输出 75

3.3.3 colnames函数 75

3.3.4 summary函数 76

3.3.5 在浏览器中打开文件 77

3.3.6 绘制分布图 77

3.3.7 变量的可视化绘图 78

3.4 转置数据帧 80

3.5 缺失值 84

3.5.1 建立缺失值测试数据集 84

3.5.2 缺失值的不同类型 85

3.5.3 纠正缺失值 87

3.5.4 使用替换过的值运行回归 90

3.6 替换分类变量 91

3.7 异常值 91

3.7.1 异常值为什么重要 91

3.7.2 探测异常值 92

3.8 数据转换 96

3.8.1 生成测试数据 97

3.8.2 Box-Cox转换 97

3.9 变量化简/变量重要性 98

3.9.1 主成分分析法 98

3.9.2 全子集回归 102

3.9.3 变量重要性 104

3.10 参考资料 106

3.11 本章小结 106

第4章 回归算法导论 107

4.1 监督学习模型和无监督学习模型 108

4.1.1 监督学习模型 108

4.1.2 无监督学习模型 108

4.2 回归技术 109

4.3 广义线性模型 110

4.4 逻辑回归 110

4.4.1 比率 111

4.4.2 逻辑回归系数 111

4.4.3 示例:在医疗中使用逻辑回归来预测疼痛阈值 112

4.4.4 GLM模型拟合 114

4.4.5 检验残差项 115

4.4.6 添加变量的分布图 116

4.4.7 p值及其效应量 117

4.4.8 p值及其影响范围 118

4.4.9 变量选择 119

4.4.10 交互 121

4.4.11 拟合优度统计量 123

4.4.12 置信区间和Wald统计 124

4.4.13 基本回归诊断图 124

4.4.14 分布图类型描述 124

4.4.1.5 拟合优度:Hosmer-Lemeshow检验 126

4.4.16 正则化 127

4.4.17 示例:ElasticNet 128

4.4.18 选择一个正确的Lambda 128

4.4.19 基于Lambda输出可能的系数 129

4.5 本章小结 130

第5章 决策树、聚类和SVM导论 131

5.1 决策树算法 131

5.1.1 决策树的优点 131

5.1.2 决策树的缺点 132

5.1.3 决策树的基本概念 132

5.1.4 扩展树 132

5.1.5 不纯度 133

5.1.6 控制树的增长 134

5.1.7 决策树算法的类型 134

5.1.8 检查目标变量 135

5.1.9 在rpart模型中使用公式符号 135

5.1.10 图的解释 136

5.1.11 输出决策树的文本版本 137

5.1.12 修剪 138

5.1.13 渲染决策树的其他选项 139

5.2 聚类分析 140

5.2.1 聚类分析应用于多种行业 140

5.2.2 什么是聚类 140

5.2.3 聚类的类型 141

5.2.4 k均值聚类算法 141

5.2.5 测量聚类之间的距离 143

5.2.6 聚类的肘形图 146

5.3 支持向量机 151

5.3.1 映射函数的简单说明 152

5.3.2 使用SVM分析消费者投诉数据 153

5.3.3 将非结构化数据转换为结构化数据 154

5.4 参考资料 157

5.5 本章小结 157

第6章 使用生存分析来预测和分析客户流失 158

6.1 什么是生存分析 158

6.1.1 依赖时间的数据 159

6.1.2 删失 159

6.2 客户满意度数据集 160

6.2.1 利用概率函数生成数据 161

6.2.2 创建矩阵图表 166

6.3 划分训练和测试数据 167

6.4 通过创建生存对象来设置阶段 168

6.5 检查生存曲线 170

6.5.1 更好的绘图 172

6.5.2 对比生存曲线 173

6.5.3 检验生存曲线之间的性别差异 174

6.5.4 检验生存曲线之间的教育程度差异 174

6.5.5 绘制客户满意度和服务电话数量曲线 175

6.5.6 添加性别来改进教育程度生存曲线 176

6.5.7 把服务电话转换成二进制变量 178

6.5.8 检验打过和没打过服务电话的客户 179

6.6 cox回归建模 179

6.6.1 我们的第一个模型 180

6.6.2 检查cox回归的输出 182

6.6.3 比例风险测试 182

6.6.4 比例风险绘图 183

6.6.5 获取cox生存曲线 184

6.6.6 绘制曲线 184

6.6.7 偏回归绘图 184

6.6.8 检查子集的生存曲线 186

6.6.9 比较性别差异 187

6.6.10 验证模型 188

6.6.11 决定一致性 191

6.7 基于时间的变量 191

6.7.1 改变数据以反映第二次调查 192

6.7.2 survSplit的工作原理 192

6.7.3 调整记录来模拟一次干预 193

6.7.4 运行基于时间的模型 195

6.8 比较模型 197

6.9 变量选择 197

6.9.1 合并交互作用项 199

6.9.2 比较各个备选模型的AIC 199

6.10 本章小结 200

第7章 使用购物篮分析作为推荐系统引擎 201

7.1 什么是购物篮分析 201

7.2 检查杂货明细 202

7.3 示例购物篮 203

7.4 关联规则算法 204

7.5 先例和后果 205

7.6 评估规则的准确性 205

7.6.1 支持度 206

7.6.2 计算支持度 206

7.6.3 置信度 206

7.6.4 提升度 206

7.7 准备原始数据文件进行分析 207

7.7.1 读取交易文件 207

7.7.2 capture.output函数 208

7.8 分析输入文件 208

7.8.1 分析发票日期 209

7.8.2 绘制日期 210

7.9 净化和清洗数据 211

7.9.1 移除不必要的字符空格 211

7.9.2 简化描述 212

7.10 自动移除颜色 212

7.10.1 colors()函数 212

7.10.2 清洗颜色 213

7.11 过滤单个商品交易 214

7.12 将结果合并到原始数据中 216

7.13 使用camelcase压缩描述 217

7.13.1 自定义函数映射到camelcase 217

7.13.2 提取最后一个单词 218

7.14 创建测试和训练数据集 219

7.14.1 保存结果 220

7.14.2 加载分析文件 220

7.14.3 确定后续规则 221

7.14.4 替换缺失值 222

7.14.5 制作最后的子集 222

7.15 创建购物篮交易文件 223

7.16 方法1:强制将数据帧转换为交易文件 223

7.16.1 检查交易文件 225

7.16.2 获取topN购买商品 225

7.16.3 寻找关联规则 226

7.16.4 检验规则摘要 228

7.16.5 检验规则质量并观察最高支持度 228

7.16.6 置信度和提升度指标 229

7.16.7 过滤大量规则 229

7.16.8 生成大量规则 232

7.16.9 绘制大量规则 232

7.17 方法2:创建一份物理交易文件 233

7.17.1 再次读取交易文件 234

7.17.2 绘制规则 237

7.17.3 创建规则的子集 237

7.17.4 文本聚类 239

7.18 转换为一个文献术语相关矩阵 240

7.18.1 移除稀疏术语 241

7.18.2 找出频繁术语 242

7.19 术语的k均值聚类 243

7.19.1 研究聚类1 243

7.19.2 研究聚类2 244

7.19.3 研究聚类3 244

7.19.4 研究聚类4 244

7.19.5 研究聚类5 245

7.20 预测聚类分配 245

7.20.1 使用flexclust预测聚类分配 245

7.20.2 运行k均值生成聚类 246

7.20.3 创建测试DTM 247

7.21 在聚类中运行apriori算法 249

7.22 总结指标 250

7.23 参考资料 250

7.24 本章小结 251

第8章 将医疗注册数据作为时间序列探索 252

8.1 时间序列数据 252

8.2 健康保险覆盖率数据集 253

8.3 准备工作 253

8.4 读入数据 253

8.5 从各列提取子集 254

8.6 数据的描述 254

8.7 目标时间序列变量 255

8.8 保存数据 256

8.9 确定所有子集组 256

8.10 将汇总数据合并回原始数据 257

8.11 检查时间间隔 258

8.12 按平均人数挑选最高级别的群体 259

8.13 使用lattice绘制数据 259

8.14 使用ggplot绘制数据 260

8.15 将输出发送到外部文件 261

8.16 检查输出 262

8.17 检测线性趋势 262

8.18 自动化回归 263

8.19 对系数进行排序 264

8.20 将分数合并回原始的数据帧 265

8.21 用趋势线绘制数据 265

8.22 绘制一个图表上的全部类别 268

8.23 使用ets函数执行一些自动预测 269

8.24 使用移动平均线来使数据平滑 269

8.25 简单移动平均线 270

8.26 验证SMA的计算值 271

8.27 指数移动平均线 271

8.27.1 使用函数计算EMA 272

8.27.2 选择平滑因子 273

8.28 使用ets函数 273

8.29 使用ALL AGES做预测 274

8.30 绘制预测值和实际值 275

8.31 forecast(fit)方法 276

8.32 用置信带来绘制未来的值 276

8.33 修改模型以包含趋势组件 277

8.34 对所有类别迭代运行ets函数 279

8.35 onestep生成的精度指标 280

8.36 比较UNDER 18 YEARS组的测试和训练 281

8.37 精度指标 282

8.38 参考资料 283

8.39 本章小结 283

第9章 Spark 284

9.1 关于Spark 284

9.2 Spark环境 285

9.2.1 聚类计算 285

9.2.2 并行计算 286

9.3 SparkR 286

9.4 构建第一个Spark数据帧 287

9.5 导入相同的笔记本 288

9.6 创建一个新的笔记本 289

9.7 从小开始变大 289

9.8 运行代码 290

9.9 运行初始化代码 291

9.10 解压缩皮马印第安人糖尿病数据集 291

9.10.1 检查输出 291

9.10.2 比较结果 293

9.10.3 检查缺失值 294

9.10.4 输入缺失值 294

9.10.5 检查替换值(读者练习) 295

9.10.6 缺失值处理完成 296

9.10.7 计算相关性矩阵 296

9.10.8 计算各列的均值 298

9.11 仿真数据 299

9.11.1 使用哪些相关性 299

9.11.2 检查对象类型 300

9.12 仿真糖尿病阴性结果的情况 301

9.13 运行汇总统计 302

9.14 保存你的工作 303

9.15 本章小结 303

第10章 用Spark探索大型数据集 304

10.1 对阳性数据进行一些探索性分析 304

10.1.1 显示Spark数据帧的内容 305

10.1.2 用本地绘图特性来绘图 305

10.1.3 直接对一个Spark数据帧运行两两相关性计算 306

10.2 清理和缓存内存中的表格 307

10.3 一些探索数据时有用的Spark函数 307

10.3.1 count和groupby 307

10.3.2 协方差和相关性函数 308

10.4 创建新列 309

10.5 构建一个交叉表 310

10.6 构建直方图 310

10.7 使用ggplot绘图 312

10.8 Spark SQL 312

10.8.1 注册表格 313

10.8.2 通过R接口发布SQL 313

10.8.3 用SQL来检查潜在异常值 314

10.8.4 创建一些汇总 314

10.8.5 用第三个查询选出一些潜在异常值 315

10.8.6 变成SQL API 315

10.8.7 SQL:用case语句计算一个新列 316

10.8.8 基于年龄段评估结果变量 317

10.8.9 计算所有变量的均值 318

10.9 从Spark回到R来探索数据 319

10.10 运行本地R包 320

10.10.1 使用pairs函数(在基本包中提供) 320

10.10.2 生成一个相关性图形 320

10.11 一些关于使用Spark的技巧 321

10.12 本章小结 321

第11章 Spark机器学习:回归和聚类模型 322

11.1 关于本章/你将学到什么 322

11.1.1 读取数据 322

11.1.2 运行数据帧的摘要并保存对象 323

11.2 将数据分割成训练和测试数据集 324

11.2.1 生成训练数据集 324

11.2.2 生成测试数据集 325

11.2.3 关于并行处理的说明 325

11.2.4 将误差引入测试数据集 325

11.2.5 生成分布的直方图 326

11.2.6 生成有误差的新测试数据 326

11.3 使用逻辑回归的Spark机器学习 327

11.3.1 检查输出 327

11.3.2 正则化模型 328

11.3.3 预测结果 329

11.3.4 绘制结果 330

11.4 运行测试数据的预测 331

11.5 合并训练和测试数据集 331

11.6 将这三个表提供给SQL 333

11.7 验证回归结果 333

11.8 计算拟合度的好坏 333

11.9 测试组的混淆矩阵 334

11.10 在Spark以外绘图 337

11.10.1 收集结果的样本 337

11.10.2 按outcome的值检查分布 337

11.10.3 注册一些额外的表 338

11.11 创建一些全局视图 338

11.11.1 用户练习 338

11.11.2 聚类分析 339

11.11.3 准备进行分析的数据 339

11.11.4 从全局视图读取数据 339

11.11.5 输入以前计算的平均值和标准偏差 340

11.11.6 连接平均值和训练数据的标准偏差 340

11.11.7 连接平均值和测试数据的标准偏差 341

11.12 归一化数据 342

11.12.1 显示输出 342

11.12.2 运行k均值模型 343

11.12.3 将模型拟合到训练数据 344

11.12.4 将模型拟合到测试数据 344

11.12.5 以图形方式显示聚类分配 345

11.13 通过聚类的平均值来描述它们的特征 347

11.14 本章小结 348

第12章 Spark模型:基于规则的学习 349

12.1 加载盘查(停止和搜身)数据集 349

12.2 读取表格 351

12.2.1 运行第一个单元 351

12.2.2 将整个文件读取到内存中 351

12.2.3 将变量转化为整数 352

12.3 发现重要特征 353

12.3.1 消除级别过多的因子 354

12.3.2 测试和训练数据集 354

12.3.3 检查分级数据 355

12.4 运行OneR模型 356

12.4.1 理解输出 356

12.4.2 构建新变量 358

12.4.3 在测试样本上运行预测 358

12.5 另一个OneR例子 359

12.6 使用rpart构建决策树 361

12.6.1 首先收集样本 361

12.6.2 使用rpart的决策树 361

12.6.3 绘制树 362

12.7 运行Python中的另一种模型 363

12.7.1 运行Python决策树 363

12.7.2 读取盘查表格 363

12.8 索引分类特征 364

12.8.1 映射到RDD 366

12.8.2 指定决策树模型 366

12.8.3 生成更大的树 367

12.8.4 可视化树 368

12.8.5 比较训练决策树和测试决策树 368

12.9 本章小结 370

返回顶部