深入浅出数据科学PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:(美)斯楠·奥兹德米尔著;张星辰译
- 出 版 社:北京:人民邮电出版社
- 出版年份:2018
- ISBN:9787115481269
- 页数:311 页
第1章 如何听起来像数据科学家 1
1.1 什么是数据科学 3
1.1.1 基本的专业术语 3
1.1.2 为什么是数据科学 4
1.1.3 案例:西格玛科技公司 4
1.2 数据科学韦恩图 5
1.2.1 数学 7
1.2.2 计算机编程 8
1.2.3 为什么是Python 9
1.2.4 领域知识 13
1.3 更多的专业术语 14
1.4 数据科学案例 15
1.4.1 案例:自动审核政府文件 16
1.4.2 案例:市场营销费用 17
1.4.3 案例:数据科学家的岗位描述 18
1.5 总结 21
第2章 数据的类型 23
2.1 数据的“味道” 23
2.2 为什么要进行区分 24
2.3 结构化数据和非结构化数据 24
2.4 定量数据和定性数据 28
2.4.1 案例:咖啡店数据 28
2.4.2 案例:世界酒精消费量 30
2.4.3 更深入的研究 32
2.5 简单小结 33
2.6 数据的4个尺度 33
2.6.1 定类尺度 34
2.6.2 定序尺度 35
2.6.3 定距尺度 37
2.6.4 定比尺度 41
2.7 数据是旁观者的眼睛 42
2.8 总结 43
第3章 数据科学的5个步骤 44
3.1 数据科学简介 44
3.2 5个步骤概览 45
3.2.1 提出有意思的问题 45
3.2.2 获取数据 45
3.2.3 探索数据 45
3.2.4 数据建模 46
3.2.5 可视化和分享结果 46
3.3 探索数据 46
3.3.1 数据探索的基本问题 47
3.3.2 数据集1:Yelp点评数据 48
3.3.3 数据集2:泰坦尼克 56
3.4 总结 60
第4章 基本的数学知识 61
4.1 数学学科 61
4.2 基本的数学符号和术语 62
4.2.1 向量和矩阵 62
4.2.2 算术符号 65
4.2.3 图表 68
4.2.4 指数/对数 69
4.2.5 集合论 71
4.3 线性代数 74
4.4 总结 78
第5章 概率论入门:不可能,还是不太可能 79
5.1 基本的定义 79
5.2 概率 80
5.3 贝叶斯VS频率论 81
5.4 复合事件 84
5.5 条件概率 86
5.6 概率定理 87
5.6.1 加法定理 87
5.6.2 互斥性 88
5.6.3 乘法定理 88
5.6.4 独立性 89
5.6.5 互补事件 89
5.7 再进一步 91
5.8 总结 92
第6章 高等概率论 93
6.1 互补事件 93
6.2 重温贝叶斯思想 94
6.2.1 贝叶斯定理 94
6.2.2 贝叶斯定理的更多应用 97
6.3 随机变量 100
6.3.1 离散型随机变量 101
6.3.2 连续型随机变量 110
6.4 总结 113
第7章 统计学入门 114
7.1 什么是统计学 114
7.2 如何获取数据 115
7.3 数据抽样 118
7.3.1 概率抽样 118
7.3.2 随机抽样 119
7.3.3 不等概率抽样 120
7.4 如何描述统计量 120
7.4.1 测度中心 120
7.4.2 变异测度 121
7.4.3 变异系数 125
7.4.4 相对位置测度 126
7.5 经验法则 132
7.6 总结 134
第8章 高等统计学 135
8.1 点估计 135
8.2 抽样分布 139
8.3 置信区间 142
8.4 假设检验 145
8.4.1 实施假设检验 146
8.4.2 单样本t检验 147
8.4.3 Ⅰ型错误和Ⅱ型错误 151
8.4.4 分类变量的假设检验 151
8.5 总结 155
第9章 交流数据 156
9.1 为什么交流数据很重要 156
9.2 识别有效和无效的可视化 157
9.2.1 散点图 157
9.2.2 折线图 159
9.2.3 条形图 160
9.2.4 直方图 162
9.2.5 箱形图 163
9.3 当图表和统计在说谎 166
9.3.1 相关性VS因果关系 166
9.3.2 辛普森悖论 168
9.3.3 如果相关性不等于因果关系,那什么导致了因果关系 169
9.4 语言交流 170
9.4.1 关键在于讲故事 170
9.4.2 正式场合的注意事项 170
9.5 为什么演示、如何演示和演示策略 171
9.6 总结 172
第10章 机器学习精要:你的烤箱在学习吗 173
10.1 什么是机器学习 173
10.2 机器学习并不完美 175
10.3 机器学习如何工作 176
10.4 机器学习的分类 176
10.4.1 监督学习 177
10.4.2 无监督学习 182
10.4.3 强化学习 183
10.5 统计模型如何纳入以上分类 186
10.6 线性回归 186
10.6.1 增加更多预测因子 191
10.6.2 回归指标 193
10.7 Logistic回归 199
10.8 概率、几率和对数几率 201
10.9 哑变量 206
10.10 总结 210
第11章 树上无预言,真的吗 212
11.1 朴素贝叶斯分类 212
11.2 决策树 220
11.2.1 计算机如何生成回归树 221
11.2.2 计算机如何拟合分类树 222
11.3 无监督学习 226
11.3.1 无监督学习的使用场景 226
11.3.2 K均值聚类 227
11.3.3 如何选择最佳的K值,并对簇进行评价 233
11.4 特征提取和主成分分析 235
11.5 总结 246
第12章 超越精要 247
12.1 偏差-方差权衡 247
12.1.1 偏差导致的误差 248
12.1.2 方差导致的误差 248
12.1.3 两种极端的偏差-方差权衡情况 255
12.1.4 偏差-方差如何组成误差函数 256
12.2 K层交叉验证 257
12.3 网格搜索算法 261
12.4 集成技术 266
12.4.1 随机森林 268
12.4.2 随机森林VS决策树 273
12.5 神经网络 274
12.6 总结 279
第13章 案例 280
13.1 案例1:基于社交媒体预测股票价格 280
13.1.1 文本情感分析 280
13.1.2 探索性数据分析 281
13.1.3 超越案例 294
13.2 案例2:为什么有些人会对配偶撒谎 295
13.3 案例3:初试TensorFlow 301
13.4 总结 311
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019