当前位置:首页 > 工业技术
深入浅出Python机器学习
深入浅出Python机器学习

深入浅出Python机器学习PDF电子书下载

工业技术

  • 电子书积分:11 积分如何计算积分?
  • 作 者:段小手著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2018
  • ISBN:9787302503231
  • 页数:275 页
图书介绍:本书内容涵盖了有监督学习、无监督学习、模型优化、自然语言处理等机器学习领域所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。全书采用由浅入深、循序渐进的讲授方式,完全是遵循和尊重了初学者对机器学习知识的认知规律。适合有一定程序设计语言和算法基础的读者学习使用。
《深入浅出Python机器学习》目录

第1章 概述 2

1.1 什么是机器学习——从一个小故事开始 2

1.2 机器学习的一些应用场景——蝙蝠公司的业务单元 3

1.3 机器学习应该如何入门——世上无难事 5

1.4 有监督学习与无监督学习 7

1.5 机器学习中的分类与回归 8

1.6 模型的泛化、过拟合与欠拟合 8

1.7 小结 9

第2章 基于Python语言的环境配置 12

2.1 Python的下载和安装 12

2.2 Jupyter Notebook的安装与使用方法 13

2.2.1 使用pip进行JupyterNotebook的下载和安装 13

2.2.2 运行JupyterNotebook 14

2.2.3 JupyterNotebook的使用方法 15

2.3 一些必需库的安装及功能简介 17

2.3.1 Numpy——基础科学计算库 17

2.3.2 Scipy——强大的科学计算工具集 18

2.3.3 pandas——数据分析的利器 19

2.3.4 matplotlib——画出优美的图形 20

2.4 scikit-learn——非常流行的Python机器学习库 21

2.5 小结 22

第3章 K最近邻算法——近朱者赤,近墨者黑 24

3.1 K最近邻算法的原理 24

3.2 K最近邻算法的用法 25

3.2.1 K最近邻算法在分类任务中的应用 25

3.2.2 K最近邻算法处理多元分类任务 29

3.2.3 K最近邻算法用于回归分析 31

3.3 K最近邻算法项目实战——酒的分类 34

3.3.1 对数据集进行分析 34

3.3.2 生成训练数据集和测试数据集 36

3.3.3 使用K最近邻算法进行建模 38

3.3.4 使用模型对新样本的分类进行预测 39

3.4 小结 41

第4章 广义线性模型——“耿直”的算法模型 44

4.1 线性模型的基本概念 44

4.1.1 线性模型的一般公式 44

4.1.2 线性模型的图形表示 45

4.1.3 线性模型的特点 49

4.2 最基本的线性模型——线性回归 50

4.2.1 线性回归的基本原理 50

4.2.2 线性回归的性能表现 51

4.3 使用L2正则化的线性模型——岭回归 53

4.3.1 岭回归的原理 53

4.3.2 岭回归的参数调节 54

4.4 使用L1正则化的线性模型——套索回归 58

4.4.1 套索回归的原理 58

4.4.2 套索回归的参数调节 59

4.4.3 套索回归与岭回归的对比 60

4.5 小结 62

第5章 朴素贝叶斯——打雷啦,收衣服啊 64

5.1 朴素贝叶斯基本概念 64

5.1.1 贝叶斯定理 64

5.1.2 朴素贝叶斯的简单应用 64

5.2 朴素贝叶斯算法的不同方法 68

5.2.1 贝努利朴素贝叶斯 68

5.2.2 高斯朴素贝叶斯 71

5.2.3 多项式朴索贝叶斯 72

5.3 朴素贝叶斯实战——判断肿瘤是良性还是恶性 75

5.3.1 对数据集进行分析 76

5.3.2 使用高斯朴素贝叶斯进行建模 77

5.3.3 高斯朴素贝叶斯的学习曲线 78

5.4 小结 80

第6章 决策树与随机森林——会玩读心术的算法 82

6.1 决策树 82

6.1.1 决策树基本原理 82

6.1.2 决策树的构建 82

6.1.3 决策树的优势和不足 88

6.2 随机森林 88

6.2.1 随机森林的基本概念 89

6.2.2 随机森林的构建 89

6.2.3 随机森林的优势和不足 92

6.3 随机森林实例——要不要和相亲对象进一步发展 93

6.3.1 数据集的准备 93

6.3.2 用get_dummies处理数据 94

6.3.3 用决策树建模并做出预测 96

6.4 小结 98

第7章 支持向量机SVM——专治线性不可分 100

7.1 支持向量机SVM基本概念 100

7.1.1 支持向量机SVM的原理 100

7.1.2 支持向量机SVM的核函数 102

7.2 SVM的核函数与参数选择 104

7.2.1 不同核函数的SVM对比 104

7.2.2 支持向量机的gamma参数调节 106

7.2.3 SVM算法的优势与不足 108

7.3 SVM实例——波士顿房价回归分析 108

7.3.1 初步了解数据集 109

7.3.2 使用SVR进行建模 110

7.4 小结 114

第8章 神经网络——曾入“冷宫”,如今得宠 116

8.1 神经网络的前世今生 116

8.1.1 神经网络的起源 116

8.1.2 第一个感知器学习法则 116

8.1.3 神经网络之父——杰弗瑞·欣顿 117

8.2 神经网络的原理及使用 118

8.2.1 神经网络的原理 118

8.2.2 神经网络中的非线性矫正 119

8.2.3 神经网络的参数设置 121

8.3 神经网络实例——手写识别 127

8.3.1 使用MNIST数据集 128

8.3.2 训练MLP神经网络 129

8.3.3 使用模型进行数字识别 130

8.4 小结 131

第9章 数据预处理、降维、特征提取及聚类——快刀斩乱麻 131

9.1 数据预处理 134

9.1.1 使用StandardScaler进行数据预处理 134

9.1.2 使用MinMaxScaler进行数据预处理 135

9.1 .3 使用RobustScaler进行数据预处理 136

9.1.4 使用Normalizer进行数据预处理 137

9.1.5 通过数据预处理提高模型准确率 138

9.2 数据降维 140

9.2.1 PCA主成分分析原理 140

9.2.2 对数据降维以便于进行可视化 142

9.2.3 原始特征与PCA主成分之间的关系 143

9.3 特征提取 144

9.3.1 PCA主成分分析法用于特征提取 145

9.3.2 非负矩阵分解用于特征提取 148

9.4 聚类算法 149

9.4.1 K均值聚类算法 150

9.4.2 凝聚聚类算法 153

9.4.3 DBSCAN算法 154

9.5 小结 157

第10章 数据表达与特征工程——锦上再添花 160

10.1 数据表达 160

10.1.1 使用哑变量转化类型特征 160

10.1.2 对数据进行装箱处理 162

10.2 数据“升维” 166

10.2.1 向数据集添加交互式特征 166

10.2.2 向数据集添加多项式特征 170

10.3 自动特征选择 173

10.3.1 使用单一变量法进行特征选择 173

10.3.2 基于模型的特征选择 178

10.3.3 迭代式特征选择 180

10.4 小结 182

第11章 模型评估与优化——只有更好,没有最好 182

11.1 使用交叉验证进行模型评估 184

11.1.1 scikit-learn中的交叉验证法 184

11.1.2 随机拆分和“挨个儿试试” 186

11.1.3 为什么要使用交叉验证法 188

11.2 使用网格搜索优化模型参数 188

11.2.1 简单网格搜索 189

11.2.2 与交叉验证结合的网格搜索 191

11.3 分类模型的可信度评估 193

11.3.1 分类模型中的预测准确率 194

11.3.2 分类模型中的决定系数 197

11.4 小结 198

第12章 建立算法的管道模型——团结就是力量 202

12.1 管道模型的概念及用法 202

12.1.1 管道模型的基本概念 202

12.1.2 使用管道模型进行网格搜索 206

12.2 使用管道模型对股票涨幅进行回归分析 209

12.2.1 数据集准备 209

12.2.2 建立包含预处理和MLP模型的管道模型 213

12.2.3 向管道模型添加特征选择步骤 214

12.3 使用管道模型进行模型选择和参数调优 216

12.3.1 使用管道模型进行模型选择 216

12.3.2 使用管道模型寻找更优参数 217

12.4 小结 220

第13章 文本数据处理——亲,见字如“数” 222

13.1 文本数据的特征提取、中文分词及词袋模型 222

13.1.1 使用CountVectorizer对文本进行特征提取 222

13.1.2 使用分词工具对中文文本进行分词 223

13.1.3 使用词袋模型将文本数据转为数组 224

13.2 对文本数据进一步进行优化处理 226

13.2.1 使用n-Gram改善词袋模型 226

13.2.2 使用tf-idf模型对文本数据进行处理 228

13.2.3 删除文本中的停用词 234

13.3 小结 236

第14章 从数据获取到话题提取——从“研究员”到“段子手” 236

14.1 简单页面的爬取 238

14.1.1 准备Requests库和UserAgent 238

14.1.2 确定一个目标网站并分析其结构 240

14.1.3 进行爬取并保存为本地文件 241

14.2 稍微复杂一点的爬取 244

14.2.1 确定目标页面并进行分析 245

14.2.2 Python中的正则表达式 247

14.2.3 使用BeautifulSoup进行HTML解析 251

14.2.4 对目标页面进行爬取并保存到本地 256

14.3 对文本数据进行话题提取 258

14.3.1 寻找目标网站并分析结构 259

14.3.2 编写爬虫进行内容爬取 261

14.3.3 使用潜在狄利克雷分布进行话题提取 263

14.4 小结 265

第15章 人才需求现状与未来学习方向——你是不是下一个“大牛” 265

15.1 人才需求现状 268

15.1.1 全球AI从业者达190万,人才需求3年翻8倍 268

15.1.2 AI人才需求集中于一线城市,七成从业者月薪过万 269

15.1.3 人才困境仍难缓解,政策支援亟不可待 269

15.2 未来学习方向 270

15.2.1 用于大数据分析的计算引擎 270

15.2.2 深度学习开源框架 271

15.2.3 使用概率模型进行推理 272

15.3 技能磨炼与实际应用 272

15.3.1 Kaggle算法大赛平台和OpenML平台 272

15.3.2 在工业级场景中的应用 273

15.3.3 对算法模型进行A/B测试 273

15.4 小结 274

参考文献 275

相关图书
作者其它书籍
返回顶部