数据科学PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:朝乐门
- 出 版 社:北京:清华大学出版社
- 出版年份:2016
- ISBN:9787302436992
- 页数:323 页
第1章 基础理论 1
1.1 数据 3
1.1.1 数据模型 5
1.1.2 数据维度 7
1.2 大数据 9
1.2.1 内涵与特征 10
1.2.2 大数据时代的新理念 12
1.2.3 大数据时代的新术语 16
1.3 数据科学概述 20
1.3.1 研究目的 22
1.3.2 理论基础 24
1.3.3 研究内容 25
1.3.4 基本流程 27
1.3.5 主要原则 28
1.3.6 典型应用 29
1.4 数据科学家 30
1.4.1 主要任务 30
1.4.2 能力要求 30
1.4.3 常用工具 31
1.4.4 团队工作 32
1.5 数据科学项目 33
1.5.1 角色定义 33
1.5.2 基本流程 34
1.6 应用案例 35
小结 41
习题 42
参考文献及扩展阅读资料 42
第2章 数据预处理 45
2.1 数据质量 48
2.1.1 统计学规律 50
2.1.2 语言学规律 51
2.1.3 数据连续性理论 52
2.1.4 数据鉴别技术 54
2.1.5 探索性数据分析 57
2.2 数据审计 60
2.2.1 预定义审计 60
2.2.2 自定义审计 61
2.2.3 可视化审计 61
2.3 数据清洗 62
2.3.1 缺失数据处理 63
2.3.2 冗余数据处理 64
2.3.3 噪声数据处理 65
2.4 数据变换 68
2.4.1 大小变换 69
2.4.2 类型变换 70
2.5 数据集成 71
2.5.1 基本类型 71
2.5.2 主要问题 72
2.6 其他预处理方法 74
2.6.1 数据脱敏 74
2.6.2 数据归约 75
2.6.3 数据标注 76
2.7 应用案例 76
小结 87
习题 87
参考文献及扩展阅读资料 88
第3章 数据统计 90
3.1 概率分布 93
3.1.1 正态分布 95
3.1.2 卡方分布 97
3.1.3 t分布 97
3.1.4 F分布 98
3.2 参数估计 98
3.2.1 点估计 99
3.2.2 区间估计 99
3.3 假设检验 101
3.3.1 参数检验 103
3.3.2 非参数检验 104
3.4 基本分析方法 105
3.4.1 相关分析 106
3.4.2 回归分析 108
3.4.3 方差分析 111
3.4.4 分类分析 112
3.4.5 聚类分析 114
3.4.6 时间序列分析 115
3.4.7 其他方法 116
3.5 元分析方法 118
3.5.1 加权平均法 118
3.5.2 优化方法 119
3.6 应用案例 120
小结 126
习题 127
参考文献及扩展阅读资料 128
第4章 机器学习 129
4.1 基本概念 133
4.1.1 定义 133
4.1.2 应用 134
4.2 机器学习活动 135
4.2.1 训练经验的选择 135
4.2.2 目标函数的选择 136
4.2.3 目标函数的表示 138
4.2.4 函数逼近算法的选择 139
4.3 机器学习系统 141
4.3.1 执行器 141
4.3.2 评价器 142
4.3.3 泛化器 143
4.3.4 实验生成器 143
4.4 主要类型 143
4.4.1 基于实例学习 144
4.4.2 概念学习 144
4.4.3 决策树学习 147
4.4.4 人工神经网络学习 148
4.4.5 贝叶斯学习 151
4.4.6 遗传算法 152
4.4.7 分析学习 154
4.4.8 增强学习 159
4.5 典型算法 160
4.5.1 K-Means算法 161
4.5.2 KNN算法 162
4.5.3 ID3算法 164
4.6 应用案例 167
小结 176
习题 177
参考文献及扩展阅读资料 178
第5章 数据可视化 179
5.1 主要类型 184
5.1.1 科学可视化 184
5.1.2 信息可视化 185
5.1.3 可视分析学 186
5.2 基本模型 187
5.2.1 顺序模型 187
5.2.2 循环模型 187
5.2.3 分析模型 188
5.3 常用方法 190
5.3.1 视觉编码 191
5.3.2 统计图表 193
5.3.3 图论方法 198
5.3.4 视觉隐喻 200
5.3.5 图形符号学 202
5.3.6 面向领域的方法 203
5.4 视觉编码 205
5.4.1 视觉感知 205
5.4.2 数据类型 206
5.4.3 视觉通道 207
5.4.4 视觉假象 210
5.5 评价与改进 211
5.5.1 测评原则 211
5.5.2 测评流程 212
5.5.3 测评方法 213
5.6 应用案例 213
小结 218
习题 220
参考文献及扩展阅读资料 220
第6章 数据计算 222
6.1 计算模式的演变 224
6.1.1 集中式计算 225
6.1.2 分布式计算 225
6.1.3 网格计算 227
6.1.4 云计算 227
6.2 主流计算框架——MapReduce 229
6.2.1 基本思想 230
6.2.2 实现过程 232
6.2.3 主要特征 233
6.2.4 关键技术 236
6.5.5 下一代MapReduce 238
6.3 主流计算平台——Hadoop MapReduce 240
6.3.1 数据流 240
6.3.2 任务处理 242
6.3.3 技术实现 244
6.3.4 YARN 247
6.4 其他相关计算系统——Hadoop生态系统 249
6.4.1 HDFS 251
6.4.2 Hive 251
6.4.3 Pig 252
6.4.4 Mahout 253
6.4.5 HBase 254
6.4.6 ZooKeeper 254
6.4.7 Flume 256
6.4.8 Sqoop 257
6.5 应用案例 258
小结 261
习题 262
参考文献及扩展阅读资料 262
第7章 数据管理 264
7.1 基本类型 267
7.1.1 关系数据库 268
7.1.2 NoSQL 271
7.1.3 关系云 273
7.2 体系结构 273
7.2.1 Master-Slave结构 275
7.2.2 P2P结构 276
7.3 关键技术 278
7.3.1 数据模型 278
7.3.2 数据分布 282
7.3.3 数据一致性 285
7.3.4 CAP理论与BASE原则 287
7.3.5 视图与物化视图 288
7.3.6 事务与版本戳 289
7.4 典型系统 291
7.4.1 Memcached 291
7.4.2 MongoDB 294
7.4.3 Cassandra 296
7.4.4 HBase 298
7.5 应用案例 301
小结 304
习题 307
参考文献及扩展阅读资料 307
附录A R语言与R软件 309
附录B 术语索引 318
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019