大数据、数据挖掘与智慧运营PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:梁栋,张兆静,彭木根编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2017
- ISBN:9787302483373
- 页数:403 页
第1章 大数据、数据挖掘与智慧运营综述 1
1.1 数据挖掘的发展史 2
1.1.1 数据挖掘的定义与起源 2
1.1.2 数据挖掘的早期发展 3
1.1.3 数据挖掘的算法前传 4
1.1.4 数据挖掘的第一个里程碑 8
1.1.5 最近十年的发展与应用 11
1.2 数据挖掘的主要流程与金字塔模型 13
1.2.1 数据挖掘的任务 14
1.2.2 数据挖掘的基本步骤 16
1.2.3 数据挖掘的架构——云计算 17
1.2.4 “金字塔”模型 20
1.3 数据挖掘对智慧运营的意义 22
1.3.1 “互联网+”时代的来临及其对运营商的冲击和挑战 22
1.3.2 大数据时代的来临及其对运营商的挑战和机遇 24
1.3.3 电信运营商运营发展面临的主要瓶颈 26
1.3.4 电信运营商发展的“三条曲线” 27
1.3.5 智慧运营与大数据变现 29
1.3.6 数据挖掘对于提升智慧运营效率的意义 30
1.4 大数据时代已经来临 31
1.4.1 大数据的定义 31
1.4.2 大数据的“4V”特征 32
1.4.3 结构化数据与非结构化数据 33
1.5 非结构化数据挖掘的研究进展 34
1.5.1 文本挖掘 34
1.5.2 模式识别 36
1.5.3 语音识别 40
1.5.4 视频识别 44
1.5.5 其他非结构化数据挖掘 48
1.6 数据挖掘与机器学习、深度学习、人工智能及云计算 50
1.6.1 机器学习 51
1.6.2 深度学习 53
1.6.3 人工智能 55
1.6.4 云计算 56
1.7 现有数据挖掘的主要分析软件与系统 61
1.7.1 Hadoop 61
1.7.2 Storm 63
1.7.3 Spark 65
1.7.4 SPASS(SPSS) 66
1.7.5 SAS 68
参考文献 70
第2章 数据统计与数据预处理 73
2.1 数据属性类型 74
2.1.1 数据属性定义 74
2.1.2 离散属性 74
2.1.3 连续属性 75
2.2 数据的统计特性 77
2.2.1 中心趋势度量 77
2.2.2 数据散布度量 78
2.2.3 数据相关性 82
2.3 数据预处理 87
2.3.1 数据预处理概述 87
2.3.2 数据预处理的主要任务 88
2.3.3 数据清理 89
2.3.4 数据集成 91
2.3.5 数据规约 94
2.3.6 数据变换和离散化 97
2.4 数据字段的衍生 100
2.4.1 数据字段的拆分 101
2.4.2 统计特征的构造 101
2.4.3 数据域的变换 102
2.5 SPSS软件中的数据预处理案例 103
2.5.1 缺失值的实操处理 103
2.5.2 噪声数据的实操处理 104
2.5.3 主成分分析的实操处理 105
参考文献 107
第3章 聚类分析 109
3.1 概述 110
3.2 聚类算法的评估 113
3.3 基于划分的聚类:K-means 117
3.3.1 基于划分的聚类算法概述 117
3.3.2 K-means聚类算法原理 118
3.3.3 K-means算法的优势与劣势 120
3.3.4 K-means算法优化 121
3.3.5 SPSS软件中的K-means算法应用案例 123
3.4 基于层次化的聚类:BIRCH 134
3.4.1 基于层次化的聚类算法概述 134
3.4.2 BIRCH算法的基本原理 135
3.4.3 BIRCH算法的优势与劣势 136
3.5 基于密度的聚类:DBSCAN 137
3.5.1 基于密度的聚类算法概述 137
3.5.2 DBSCAN算法的基本原理 137
3.5.3 DBSCAN算法的优势与劣势 140
3.6 基于网格的聚类:CLIQUE 140
3.6.1 基于网格的聚类算法概述 140
3.6.2 CLIQUE算法的基本原理 141
3.6.3 CLIQUE算法的优势与劣势 142
参考文献 143
第4章 分类分析 145
4.1 分类分析概述 146
4.2 分类分析的评估 148
4.3 决策树分析 152
4.3.1 决策树算法的基本原理 152
4.3.2 CHAID决策树 160
4.3.3 ID3决策树 167
4.3.4 C4.5 决策树 171
4.3.5 CART决策树 175
4.3.6 决策树中的剪枝问题 179
4.3.7 决策树在SPSS中的应用 180
4.4 最近邻分析(KNN) 185
4.4.1 KNN算法的基本原理 185
4.4.2 KNN算法流程 186
4.4.3 KNN算法的若干问题 187
4.4.4 KNN分类器的特征 188
4.4.5 KNN算法在SPSS中的应用 188
4.5 贝叶斯分析 191
4.5.1 贝叶斯定理 191
4.5.2 朴素贝叶斯分类 192
4.5.3 贝叶斯网络 195
4.6 神经网络 199
4.6.1 感知器 200
4.6.2 多重人工神经网络 201
4.6.3 人工神经网络的特点 203
4.7 支持向量机 204
4.7.1 支持向量机简介 204
4.7.2 最大边缘超平面 205
4.7.3 数据线性可分的情况 206
4.7.4 数据非线性可分的情况 209
4.7.5 支持向量机的特征 210
参考文献 210
第5章 回归分析 213
5.1 回归分析概述 214
5.2 一元线性回归 214
5.2.1 一元线性回归的基本原理 215
5.2.2 一元线性回归性能评估 216
5.2.3 SPSS软件中一元线性回归应用案例 216
5.3 多元线性回归 222
5.3.1 多元线性回归基本原理 223
5.3.2 自变量选择方法 223
5.3.3 SPSS软件中的多元线性回归应用案例 224
5.4 非线性回归 230
5.4.1 非线性回归基本原理 231
5.4.2 幂函数回归分析 231
5.4.3 指数回归分析 232
5.4.4 对数回归分析 232
5.4.5 多项式回归分析 233
5.4.6 非线性模型线性化和曲线回归 234
5.5 逻辑回归 235
5.5.1 逻辑回归基本原理 235
5.5.2 二元逻辑回归 238
5.5.3 多元逻辑回归 238
5.5.4 SPSS软件中的逻辑回归应用案例 238
参考文献 242
第6章 关联分析 245
6.1 关联分析概述 246
6.2 关联分析的评估指标 247
6.2.1 支持度 247
6.2.2 置信度 248
6.2.3 算法复杂度 248
6.3 Apriori算法 249
6.3.1 频繁项集的定义与产生 249
6.3.2 先验原理 251
6.3.3 基于支持度的计数与剪枝 252
6.3.4 候选项集生成 253
6.3.5 基于置信度的剪枝 259
6.3.6 Apriori算法规则生成 259
6.4 FP-tree算法 261
6.4.1 频繁模式树 261
6.4.2 FP-tree算法频繁项集的产生 263
6.4.3 FP-tree算法规则生成 263
6.4.4 算法性能对比与评估 264
6.5 SPSS Modeler关联分析实例 265
参考文献 269
第7章 增强型数据挖掘算法 271
7.1 增强型数据挖掘算法概述 272
7.1.1 组合方法的优势 272
7.1.2 构建组合分类器的方法 272
7.2 随机森林 273
7.2.1 随机森林的原理 273
7.2.2 随机森林的优缺点 276
7.2.3 随机森林的泛化误差 276
7.2.4 输入特征的选择方法 277
7.3 Bagging算法 277
7.4 AdaBoost算法 280
7.4.1 AdaBoost算法简介 281
7.4.2 AdaBoost算法原理 281
7.4.3 AdaBoost算法的优缺点 285
7.5 提高不平衡数据的分类准确率 286
7.5.1 不平衡数据 286
7.5.2 不平衡数据的处理方法——数据层面 288
7.5.3 不平衡数据的处理方法——算法层面 292
7.6 迁移学习 295
7.6.1 迁移学习的基本原理 295
7.6.2 迁移学习的分类 296
7.6.3 迁移学习与数据挖掘 298
7.6.4 迁移学习的发展 301
参考文献 302
第8章 数据挖掘在运营商智慧运营中的应用 305
8.1 概述 306
8.2 单个业务的精准营销——合约机外呼营销 307
8.2.1 总结历史营销规律 308
8.2.2 预测潜在客户群体 321
8.2.3 客户群体细分 327
8.2.4 制定层次化、个性化精准营销方案 328
8.3 多种互联网业务的精准推送 329
8.3.1 根据历史营销规律总结单个业务的历史营销规律 329
8.3.2 预测潜在客户群体、预测单个业务的潜在客户群体及多个业务的联合建模 341
8.3.3 制定多业务层次化个性化联合精准营销方案 342
8.3.4 落地效果评估 343
8.4 套餐精准适配 344
8.4.1 痛点 344
8.4.2 挖掘潜在客户群体 346
8.4.3 探寻强相关字段 349
8.4.4 多元线性回归建模 350
8.4.5 制定层次化、个性化精准营销方案 351
8.4.6 落地效果评估与模型调优 352
8.5 客户保有 353
8.5.1 总结客户流失的历史规律 354
8.5.2 细分潜在流失客户群体 357
8.5.3 客户保有效益建模与最优决策 359
8.5.4 落地效果评估 361
8.6 投诉预警 363
8.6.1 客户投诉现象分析 363
8.6.2 挖掘潜在客户群体 366
8.6.3 制定个性化关怀方案 368
8.7 网络质量栅格化呈现 368
8.7.1 栅格化呈现的基本原理 369
8.7.2 覆盖栅格化 370
8.7.3 基于流量聚簇的网络优化策略 372
8.8 无线室内定位 376
8.8.1 传统室内定位方法 376
8.8.2 基于Wi-Fi信号的指纹定位算法 378
8.8.3 基于数据挖掘算法的改进定位方法 379
参考文献 383
第9章 面向未来大数据的数据挖掘与机器学习发展趋势 385
9.1 大数据时代数据挖掘与机器学习面临的新挑战 386
9.2 IEEE ICDM会议数据挖掘与机器学习的最新研究进展 395
9.3 “计算机奥运会”——Sort Benchmark 400
参考文献 402
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019