《大数据、数据挖掘与智慧运营》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:梁栋,张兆静,彭木根编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302483373
  • 页数:403 页
图书介绍:本书是大数据和数据挖掘领域的应用型科技图书,主要面向通信和互联网行业从事大数据和数据挖掘相关工作的人员,大数据和数据挖掘相关专业的研究生和本科生,以及民航、银行、电力等具备海量数据并且有大数据应用需求的企事业单位的员工。

第1章 大数据、数据挖掘与智慧运营综述 1

1.1 数据挖掘的发展史 2

1.1.1 数据挖掘的定义与起源 2

1.1.2 数据挖掘的早期发展 3

1.1.3 数据挖掘的算法前传 4

1.1.4 数据挖掘的第一个里程碑 8

1.1.5 最近十年的发展与应用 11

1.2 数据挖掘的主要流程与金字塔模型 13

1.2.1 数据挖掘的任务 14

1.2.2 数据挖掘的基本步骤 16

1.2.3 数据挖掘的架构——云计算 17

1.2.4 “金字塔”模型 20

1.3 数据挖掘对智慧运营的意义 22

1.3.1 “互联网+”时代的来临及其对运营商的冲击和挑战 22

1.3.2 大数据时代的来临及其对运营商的挑战和机遇 24

1.3.3 电信运营商运营发展面临的主要瓶颈 26

1.3.4 电信运营商发展的“三条曲线” 27

1.3.5 智慧运营与大数据变现 29

1.3.6 数据挖掘对于提升智慧运营效率的意义 30

1.4 大数据时代已经来临 31

1.4.1 大数据的定义 31

1.4.2 大数据的“4V”特征 32

1.4.3 结构化数据与非结构化数据 33

1.5 非结构化数据挖掘的研究进展 34

1.5.1 文本挖掘 34

1.5.2 模式识别 36

1.5.3 语音识别 40

1.5.4 视频识别 44

1.5.5 其他非结构化数据挖掘 48

1.6 数据挖掘与机器学习、深度学习、人工智能及云计算 50

1.6.1 机器学习 51

1.6.2 深度学习 53

1.6.3 人工智能 55

1.6.4 云计算 56

1.7 现有数据挖掘的主要分析软件与系统 61

1.7.1 Hadoop 61

1.7.2 Storm 63

1.7.3 Spark 65

1.7.4 SPASS(SPSS) 66

1.7.5 SAS 68

参考文献 70

第2章 数据统计与数据预处理 73

2.1 数据属性类型 74

2.1.1 数据属性定义 74

2.1.2 离散属性 74

2.1.3 连续属性 75

2.2 数据的统计特性 77

2.2.1 中心趋势度量 77

2.2.2 数据散布度量 78

2.2.3 数据相关性 82

2.3 数据预处理 87

2.3.1 数据预处理概述 87

2.3.2 数据预处理的主要任务 88

2.3.3 数据清理 89

2.3.4 数据集成 91

2.3.5 数据规约 94

2.3.6 数据变换和离散化 97

2.4 数据字段的衍生 100

2.4.1 数据字段的拆分 101

2.4.2 统计特征的构造 101

2.4.3 数据域的变换 102

2.5 SPSS软件中的数据预处理案例 103

2.5.1 缺失值的实操处理 103

2.5.2 噪声数据的实操处理 104

2.5.3 主成分分析的实操处理 105

参考文献 107

第3章 聚类分析 109

3.1 概述 110

3.2 聚类算法的评估 113

3.3 基于划分的聚类:K-means 117

3.3.1 基于划分的聚类算法概述 117

3.3.2 K-means聚类算法原理 118

3.3.3 K-means算法的优势与劣势 120

3.3.4 K-means算法优化 121

3.3.5 SPSS软件中的K-means算法应用案例 123

3.4 基于层次化的聚类:BIRCH 134

3.4.1 基于层次化的聚类算法概述 134

3.4.2 BIRCH算法的基本原理 135

3.4.3 BIRCH算法的优势与劣势 136

3.5 基于密度的聚类:DBSCAN 137

3.5.1 基于密度的聚类算法概述 137

3.5.2 DBSCAN算法的基本原理 137

3.5.3 DBSCAN算法的优势与劣势 140

3.6 基于网格的聚类:CLIQUE 140

3.6.1 基于网格的聚类算法概述 140

3.6.2 CLIQUE算法的基本原理 141

3.6.3 CLIQUE算法的优势与劣势 142

参考文献 143

第4章 分类分析 145

4.1 分类分析概述 146

4.2 分类分析的评估 148

4.3 决策树分析 152

4.3.1 决策树算法的基本原理 152

4.3.2 CHAID决策树 160

4.3.3 ID3决策树 167

4.3.4 C4.5 决策树 171

4.3.5 CART决策树 175

4.3.6 决策树中的剪枝问题 179

4.3.7 决策树在SPSS中的应用 180

4.4 最近邻分析(KNN) 185

4.4.1 KNN算法的基本原理 185

4.4.2 KNN算法流程 186

4.4.3 KNN算法的若干问题 187

4.4.4 KNN分类器的特征 188

4.4.5 KNN算法在SPSS中的应用 188

4.5 贝叶斯分析 191

4.5.1 贝叶斯定理 191

4.5.2 朴素贝叶斯分类 192

4.5.3 贝叶斯网络 195

4.6 神经网络 199

4.6.1 感知器 200

4.6.2 多重人工神经网络 201

4.6.3 人工神经网络的特点 203

4.7 支持向量机 204

4.7.1 支持向量机简介 204

4.7.2 最大边缘超平面 205

4.7.3 数据线性可分的情况 206

4.7.4 数据非线性可分的情况 209

4.7.5 支持向量机的特征 210

参考文献 210

第5章 回归分析 213

5.1 回归分析概述 214

5.2 一元线性回归 214

5.2.1 一元线性回归的基本原理 215

5.2.2 一元线性回归性能评估 216

5.2.3 SPSS软件中一元线性回归应用案例 216

5.3 多元线性回归 222

5.3.1 多元线性回归基本原理 223

5.3.2 自变量选择方法 223

5.3.3 SPSS软件中的多元线性回归应用案例 224

5.4 非线性回归 230

5.4.1 非线性回归基本原理 231

5.4.2 幂函数回归分析 231

5.4.3 指数回归分析 232

5.4.4 对数回归分析 232

5.4.5 多项式回归分析 233

5.4.6 非线性模型线性化和曲线回归 234

5.5 逻辑回归 235

5.5.1 逻辑回归基本原理 235

5.5.2 二元逻辑回归 238

5.5.3 多元逻辑回归 238

5.5.4 SPSS软件中的逻辑回归应用案例 238

参考文献 242

第6章 关联分析 245

6.1 关联分析概述 246

6.2 关联分析的评估指标 247

6.2.1 支持度 247

6.2.2 置信度 248

6.2.3 算法复杂度 248

6.3 Apriori算法 249

6.3.1 频繁项集的定义与产生 249

6.3.2 先验原理 251

6.3.3 基于支持度的计数与剪枝 252

6.3.4 候选项集生成 253

6.3.5 基于置信度的剪枝 259

6.3.6 Apriori算法规则生成 259

6.4 FP-tree算法 261

6.4.1 频繁模式树 261

6.4.2 FP-tree算法频繁项集的产生 263

6.4.3 FP-tree算法规则生成 263

6.4.4 算法性能对比与评估 264

6.5 SPSS Modeler关联分析实例 265

参考文献 269

第7章 增强型数据挖掘算法 271

7.1 增强型数据挖掘算法概述 272

7.1.1 组合方法的优势 272

7.1.2 构建组合分类器的方法 272

7.2 随机森林 273

7.2.1 随机森林的原理 273

7.2.2 随机森林的优缺点 276

7.2.3 随机森林的泛化误差 276

7.2.4 输入特征的选择方法 277

7.3 Bagging算法 277

7.4 AdaBoost算法 280

7.4.1 AdaBoost算法简介 281

7.4.2 AdaBoost算法原理 281

7.4.3 AdaBoost算法的优缺点 285

7.5 提高不平衡数据的分类准确率 286

7.5.1 不平衡数据 286

7.5.2 不平衡数据的处理方法——数据层面 288

7.5.3 不平衡数据的处理方法——算法层面 292

7.6 迁移学习 295

7.6.1 迁移学习的基本原理 295

7.6.2 迁移学习的分类 296

7.6.3 迁移学习与数据挖掘 298

7.6.4 迁移学习的发展 301

参考文献 302

第8章 数据挖掘在运营商智慧运营中的应用 305

8.1 概述 306

8.2 单个业务的精准营销——合约机外呼营销 307

8.2.1 总结历史营销规律 308

8.2.2 预测潜在客户群体 321

8.2.3 客户群体细分 327

8.2.4 制定层次化、个性化精准营销方案 328

8.3 多种互联网业务的精准推送 329

8.3.1 根据历史营销规律总结单个业务的历史营销规律 329

8.3.2 预测潜在客户群体、预测单个业务的潜在客户群体及多个业务的联合建模 341

8.3.3 制定多业务层次化个性化联合精准营销方案 342

8.3.4 落地效果评估 343

8.4 套餐精准适配 344

8.4.1 痛点 344

8.4.2 挖掘潜在客户群体 346

8.4.3 探寻强相关字段 349

8.4.4 多元线性回归建模 350

8.4.5 制定层次化、个性化精准营销方案 351

8.4.6 落地效果评估与模型调优 352

8.5 客户保有 353

8.5.1 总结客户流失的历史规律 354

8.5.2 细分潜在流失客户群体 357

8.5.3 客户保有效益建模与最优决策 359

8.5.4 落地效果评估 361

8.6 投诉预警 363

8.6.1 客户投诉现象分析 363

8.6.2 挖掘潜在客户群体 366

8.6.3 制定个性化关怀方案 368

8.7 网络质量栅格化呈现 368

8.7.1 栅格化呈现的基本原理 369

8.7.2 覆盖栅格化 370

8.7.3 基于流量聚簇的网络优化策略 372

8.8 无线室内定位 376

8.8.1 传统室内定位方法 376

8.8.2 基于Wi-Fi信号的指纹定位算法 378

8.8.3 基于数据挖掘算法的改进定位方法 379

参考文献 383

第9章 面向未来大数据的数据挖掘与机器学习发展趋势 385

9.1 大数据时代数据挖掘与机器学习面临的新挑战 386

9.2 IEEE ICDM会议数据挖掘与机器学习的最新研究进展 395

9.3 “计算机奥运会”——Sort Benchmark 400

参考文献 402