《Python机器学习基础教程》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(德)安德里亚斯·穆勒著;张亮译
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2018
  • ISBN:9787115475619
  • 页数:285 页
图书介绍:本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。

第1章 引言 1

1.1为何选择机器学习 1

1.1.1机器学习能够解决的问题 2

1.1.2熟悉任务和数据 4

1.2为何选择Python 4

1.3 scikit-learn 4

1.4必要的库和工具 5

1.4.1 Jupyter Notebook 6

1.4.2 NumPy 6

1.4.3 SciPy 6

1.4.4 matplotlib 7

1.4.5 pandas 8

1.4.6 mglearn 9

1.5 Python 2与Python 3的对比 9

1.6本书用到的版本 10

1.7第一个应用:鸢尾花分类 11

1.7.1初识数据 12

1.7.2衡量模型是否成功:训练数据与测试数据 14

1.7.3要事第一:观察数据 15

1.7.4构建第一个模型:k近邻算法 16

1.7.5做出预测 17

1.7.6评估模型 18

1.8小结与展望 19

第2章 监督学习 21

2.1分类与回归 21

2.2泛化、过拟合与欠拟合 22

2.3监督学习算法 24

2.3.1一些样本数据集 25

2.3.2 k近邻 28

2.3.3线性模型 35

2.3.4朴素贝叶斯分类器 53

2.3.5决策树 54

2.3.6决策树集成 64

2.3.7核支持向量机 71

2.3.8神经网络(深度学习) 80

2.4分类器的不确定度估计 91

2.4.1决策函数 91

2.4.2预测概率 94

2.4.3多分类问题的不确定度 96

2.5小结与展望 98

第3章 无监督学习与预处理 100

3.1无监督学习的类型 100

3.2无监督学习的挑战 101

3.3预处理与缩放 101

3.3.1不同类型的预处理 102

3.3.2应用数据变换 102

3.3.3对训练数据和测试数据进行相同的缩放 104

3.3.4预处理对监督学习的作用 106

3.4降维、特征提取与流形学习 107

3.4.1主成分分析 107

3.4.2非负矩阵分解 120

3.4.3用t-SNE进行流形学习 126

3.5聚类 130

3.5.1 k均值聚类 130

3.5.2凝聚聚类 140

3.5.3 DBSCAN 143

3.5.4聚类算法的对比与评估 147

3.5.5聚类方法小结 159

3.6小结与展望 159

第4章 数据表示与特征工程 161

4.1分类变量 161

4.1.1 One-Hot编码(虚拟变量) 162

4.1.2数字可以编码分类变量 166

4.2分箱、离散化、线性模型与树 168

4.3交互特征与多项式特征 171

4.4单变量非线性变换 178

4.5自动化特征选择 181

4.5.1单变量统计 181

4.5.2基于模型的特征选择 183

4.5.3迭代特征选择 184

4.6利用专家知识 185

4.7小结与展望 192

第5章 模型评估与改进 193

5.1交叉验证 194

5.1.1 scikit-learn中的交叉验证 194

5.1.2交叉验证的优点 195

5.1.3分层K折交叉验证和其他策略 196

5.2网格搜索 200

5.2.1简单网格搜索 201

5.2.2参数过拟合的风险与验证集 202

5.2.3带交叉验证的网格搜索 203

5.3评估指标与评分 213

5.3.1牢记最终目标 213

5.3.2二分类指标 214

5.3.3多分类指标 230

5.3.4回归指标 232

5.3.5在模型选择中使用评估指标 232

5.4小结与展望 234

第6章 算法链与管道 236

6.1用预处理进行参数选择 237

6.2构建管道 238

6.3在网格搜索中使用管道 239

6.4通用的管道接口 242

6.4.1用make_pipeline方便地创建管道 243

6.4.2访问步骤属性 244

6.4.3访问网格搜索管道中的属性 244

6.5网格搜索预处理步骤与模型参数 246

6.6网格搜索选择使用哪个模型 248

6.7小结与展望 249

第7章 处理文本数据 250

7.1用字符串表示的数据类型 250

7.2示例应用:电影评论的情感分析 252

7.3将文本数据表示为词袋 254

7.3.1将词袋应用于玩具数据集 255

7.3.2将词袋应用于电影评论 256

7.4停用词 259

7.5用tf-idf缩放数据 260

7.6研究模型系数 263

7.7多个单词的词袋(n元分词) 263

7.8高级分词、词干提取与词形还原 267

7.9主题建模与文档聚类 270

7.10小结与展望 277

第8章 全书总结 278

8.1处理机器学习问题 278

8.2从原型到生产 279

8.3 测试生产系统 280

8.4构建你自己的估计器 280

8.5下一步怎么走 281

8.5.1理论 281

8.5.2其他机器学习框架和包 281

8.5.3排序、推荐系统与其他学习类型 282

8.5.4概率建模、推断与概率编程 282

8.5.5神经网络 283

8.5.6推广到更大的数据集 283

8.5.7磨练你的技术 284

8.6总结 284

关于作者 285

关于封面 285