《机器学习 Python实践》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:魏贞原著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2018
  • ISBN:9787121331107
  • 页数:211 页
图书介绍:本书系统地讲解了机器学习的基本知识,以及在实际项目中使用机器学习的基本步骤和方法;详细地介绍了数据处理、分析、选择合适的算法,以及建立模型并优化等,通过不同的例子展示了机器学习在具体的项目中的应用和实践经验,是一本非常好的机器学习入门和实践的书籍。不同于很多讲解机器学习的书籍,本书以实践为导向,使用scikit-learn作为编程框架,强调简单、快速地建立模型,解决实际项目问题。读者通过对本书的学习,可以迅速上手实践机器学习,并利用机器学习解决实际问题。本书非常适合于项目经理,有意从事机器学习开发的程序员,以及高校相关专业的在读学生。

第一部分 初始 2

1 初识机器学习 2

1.1学习机器学习的误区 2

1.2什么是机器学习 3

1.3 Python中的机器学习 3

1.4学习机器学习的原则 5

1.5学习机器学习的技巧 5

1.6这本书不涵盖以下内容 6

1.7代码说明 6

1.8总结 6

2 Python机器学习的生态圈 7

2.1 Python 7

2.2 SciPy 9

2.3 scikit-learn 9

2.4环境安装 10

2.4.1安装Python 10

2.4.2安装SciPy 10

2.4.3安装scikit-learn 11

2.4.4更加便捷的安装方式 11

2.5总结 12

3 第一个机器学习项目 13

3.1机器学习中的Hello World项目 13

3.2导入数据 14

3.2.1导入类库 14

3.2.2导入数据集 15

3.3概述数据 15

3.3.1数据维度 16

3.3.2查看数据自身 16

3.3.3统计描述数据 17

3.3.4数据分类分布 17

3.4数据可视化 18

3.4.1单变量图表 18

3.4.2多变量图表 20

3.5评估算法 20

3.5.1分离出评估数据集 21

3.5.2评估模式 21

3.5.3创建模型 21

3.5.4选择最优模型 22

3.6实施预测 23

3.7总结 24

4 Python和SciPy速成 25

4.1 Python速成 25

4.1.1基本数据类型和赋值运算 26

4.1.2控制语句 28

4.1.3复杂数据类型 29

4.1.4函数 32

4.1.5 with语句 33

4.2 NumPy速成 34

4.2.1创建数组 34

4.2.2访问数据 35

4.2.3算数运算 35

4.3 Matplotlib速成 36

4.3.1绘制线条图 36

4.3.2散点图 37

4.4 Pandas速成 39

4.4.1 Series 39

4.4.2 DataFrame 40

4.5总结 41

第二部分 数据理解 44

5 数据导入 44

5.1 CSV文件 44

5.1.1文件头 45

5.1.2文件中的注释 45

5.1.3分隔符 45

5.1.4引号 45

5.2 Pima Indians数据集 45

5.3采用标准Python类库导入数据 46

5.4采用NumPy导入数据 46

5.5采用Pandas导入数据 47

5.6总结 47

6 数据理解 48

6.1简单地查看数据 48

6.2数据的维度 49

6.3数据属性和类型 50

6.4描述性统计 50

6.5数据分组分布(适用于分类算法) 51

6.6数据属性的相关性 52

6.7数据的分布分析 53

6.8总结 54

7 数据可视化 55

7.1单一图表 55

7.1.1直方图 55

7.1.2密度图 56

7.1.3箱线图 57

7.2多重图表 58

7.2.1相关矩阵图 58

7.2.2散点矩阵图 60

7.3总结 61

第三部分 数据准备 64

8 数据预处理 64

8.1为什么需要数据预处理 64

8.2格式化数据 65

8.3调整数据尺度 65

8.4正态化数据 67

8.5标准化数据 68

8.6二值数据 69

8.7总结 70

9.数据特征选定 71

9.1特征选定 72

9.2单变量特征选定 72

9.3递归特征消除 73

9.4主要成分分析 75

9.5特征重要性 76

9.6总结 76

第四部分 选择模型 78

10.评估算法 78

10.1评估算法的方法 78

10.2分离训练数据集和评估数据集 79

10.3 K折交叉验证分离 80

10.4弃一交叉验证分离 81

10.5重复随机分离评估数据集与训练数据集 82

10.6总结 83

11.算法评估矩阵 85

11.1算法评估矩阵 85

11.2分类算法矩阵 86

11.2.1分类准确度 86

11.2.2对数损失函数 87

11.2.3 AUC图 88

11.2.4混淆矩阵 90

11.2.5分类报告 91

11.3回归算法矩阵 93

11.3.1平均绝对误差 93

11.3.2均方误差 94

11.3.3决定系数(R2) 95

11.4总结 96

12.审查分类算法 97

12.1算法审查 97

12.2算法概述 98

12.3线性算法 98

12.3.1逻辑回归 99

12.3.2线性判别分析 100

12.4非线性算法 101

12.4.1 K近邻算法 101

12.4.2贝叶斯分类器 102

12.4.3分类与回归树 103

12.4.4支持向量机 104

12.5总结 105

13.审查回归算法 106

13.1算法概述 106

13.2线性算法 107

13.2.1线性回归算法 107

13.2.2岭回归算法 108

13.2.3套索回归算法 109

13.2.4弹性网络回归算法 110

13.3非线性算法 111

13.3.1 K近邻算法 111

13.3.2分类与回归树 112

13.3.3支持向量机 112

13.4总结 113

14 算法比较 115

14.1选择最佳的机器学习算法 115

14.2机器学习算法的比较 116

14.3总结 118

15 自动流程 119

15.1机器学习的自动流程 119

15.2数据准备和生成模型的Pipeline 120

15.3特征选择和生成模型的Pipeline 121

15.4总结 122

第五部分 优化模型 124

16 集成算法 124

16.1集成的方法 124

16.2装袋算法 125

16.2.1装袋决策树 125

16.2.2随机森林 126

16.2.3极端随机树 127

16.3提升算法 129

16.3.1 AdaBoost 129

16.3.2随机梯度提升 130

16.4投票算法 131

16.5总结 132

17 算法调参 133

17.1机器学习算法调参 133

17.2网格搜索优化参数 134

17.3随机搜索优化参数 135

17.4总结 136

第六部分 结果部署 138

18 持久化加载模型 138

18.1通过pickle序列化和反序列化机器学习的模型 138

18.2通过joblib序列化和反序列化机器学习的模型 140

18.3生成模型的技巧 141

18.4总结 141

第七部分 项目实践 144

19 预测模型项目模板 144

19.1在项目中实践机器学习 145

19.2机器学习项目的Python模板 145

19.3各步骤的详细说明 146

步骤1:定义问题 147

步骤2:理解数据 147

步骤3:数据准备 147

步骤4:评估算法 147

步骤5:优化模型 148

步骤6:结果部署 148

19.4使用模板的小技巧 148

19.5总结 149

20 回归项目实例 150

20.1定义问题 150

20.2导入数据 151

20.3理解数据 152

20.4数据可视化 155

20.4.1单一特征图表 155

20.4.2多重数据图表 157

20.4.3思路总结 159

20.5分离评估数据集 159

20.6评估算法 160

20.6.1评估算法——原始数据 160

20.6.2评估算法——正态化数据 162

20.7调参改善算法 164

20.8集成算法 165

20.9集成算法调参 167

20.10确定最终模型 168

20.11总结 169

21 二分类实例 170

21.1问题定义 170

21.2导入数据 171

21.3分析数据 172

21.3.1描述性统计 172

21.3.2数据可视化 177

21.4分离评估数据集 180

21.5评估算法 180

21.6算法调参 184

21.6.1 K近邻算法调参 184

21.6.2支持向量机调参 185

21.7集成算法 187

21.8确定最终模型 190

21.9总结 190

22 文本分类实例 192

22.1问题定义 192

22.2导入数据 193

22.3文本特征提取 195

22.4评估算法 196

22.5算法调参 198

22.5.1逻辑回归调参 199

22.5.2朴素贝叶斯分类器调参 199

22.6集成算法 200

22.7集成算法调参 201

22.8确定最终模型 202

22.9总结 203

附录A 205

A.1 IDE PyCharm介绍 205

A.2 Python文档 206

A.3 SciPy、NumPy、Matplotlib和Pandas文档 206

A.4树模型可视化 206

A.5 scikit-learn的算法选择路径 209

A.6聚类分析 209