深入浅出Python机器学习PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:段小手著
- 出 版 社:北京:清华大学出版社
- 出版年份:2018
- ISBN:9787302503231
- 页数:275 页
第1章 概述 2
1.1 什么是机器学习——从一个小故事开始 2
1.2 机器学习的一些应用场景——蝙蝠公司的业务单元 3
1.3 机器学习应该如何入门——世上无难事 5
1.4 有监督学习与无监督学习 7
1.5 机器学习中的分类与回归 8
1.6 模型的泛化、过拟合与欠拟合 8
1.7 小结 9
第2章 基于Python语言的环境配置 12
2.1 Python的下载和安装 12
2.2 Jupyter Notebook的安装与使用方法 13
2.2.1 使用pip进行JupyterNotebook的下载和安装 13
2.2.2 运行JupyterNotebook 14
2.2.3 JupyterNotebook的使用方法 15
2.3 一些必需库的安装及功能简介 17
2.3.1 Numpy——基础科学计算库 17
2.3.2 Scipy——强大的科学计算工具集 18
2.3.3 pandas——数据分析的利器 19
2.3.4 matplotlib——画出优美的图形 20
2.4 scikit-learn——非常流行的Python机器学习库 21
2.5 小结 22
第3章 K最近邻算法——近朱者赤,近墨者黑 24
3.1 K最近邻算法的原理 24
3.2 K最近邻算法的用法 25
3.2.1 K最近邻算法在分类任务中的应用 25
3.2.2 K最近邻算法处理多元分类任务 29
3.2.3 K最近邻算法用于回归分析 31
3.3 K最近邻算法项目实战——酒的分类 34
3.3.1 对数据集进行分析 34
3.3.2 生成训练数据集和测试数据集 36
3.3.3 使用K最近邻算法进行建模 38
3.3.4 使用模型对新样本的分类进行预测 39
3.4 小结 41
第4章 广义线性模型——“耿直”的算法模型 44
4.1 线性模型的基本概念 44
4.1.1 线性模型的一般公式 44
4.1.2 线性模型的图形表示 45
4.1.3 线性模型的特点 49
4.2 最基本的线性模型——线性回归 50
4.2.1 线性回归的基本原理 50
4.2.2 线性回归的性能表现 51
4.3 使用L2正则化的线性模型——岭回归 53
4.3.1 岭回归的原理 53
4.3.2 岭回归的参数调节 54
4.4 使用L1正则化的线性模型——套索回归 58
4.4.1 套索回归的原理 58
4.4.2 套索回归的参数调节 59
4.4.3 套索回归与岭回归的对比 60
4.5 小结 62
第5章 朴素贝叶斯——打雷啦,收衣服啊 64
5.1 朴素贝叶斯基本概念 64
5.1.1 贝叶斯定理 64
5.1.2 朴素贝叶斯的简单应用 64
5.2 朴素贝叶斯算法的不同方法 68
5.2.1 贝努利朴素贝叶斯 68
5.2.2 高斯朴素贝叶斯 71
5.2.3 多项式朴索贝叶斯 72
5.3 朴素贝叶斯实战——判断肿瘤是良性还是恶性 75
5.3.1 对数据集进行分析 76
5.3.2 使用高斯朴素贝叶斯进行建模 77
5.3.3 高斯朴素贝叶斯的学习曲线 78
5.4 小结 80
第6章 决策树与随机森林——会玩读心术的算法 82
6.1 决策树 82
6.1.1 决策树基本原理 82
6.1.2 决策树的构建 82
6.1.3 决策树的优势和不足 88
6.2 随机森林 88
6.2.1 随机森林的基本概念 89
6.2.2 随机森林的构建 89
6.2.3 随机森林的优势和不足 92
6.3 随机森林实例——要不要和相亲对象进一步发展 93
6.3.1 数据集的准备 93
6.3.2 用get_dummies处理数据 94
6.3.3 用决策树建模并做出预测 96
6.4 小结 98
第7章 支持向量机SVM——专治线性不可分 100
7.1 支持向量机SVM基本概念 100
7.1.1 支持向量机SVM的原理 100
7.1.2 支持向量机SVM的核函数 102
7.2 SVM的核函数与参数选择 104
7.2.1 不同核函数的SVM对比 104
7.2.2 支持向量机的gamma参数调节 106
7.2.3 SVM算法的优势与不足 108
7.3 SVM实例——波士顿房价回归分析 108
7.3.1 初步了解数据集 109
7.3.2 使用SVR进行建模 110
7.4 小结 114
第8章 神经网络——曾入“冷宫”,如今得宠 116
8.1 神经网络的前世今生 116
8.1.1 神经网络的起源 116
8.1.2 第一个感知器学习法则 116
8.1.3 神经网络之父——杰弗瑞·欣顿 117
8.2 神经网络的原理及使用 118
8.2.1 神经网络的原理 118
8.2.2 神经网络中的非线性矫正 119
8.2.3 神经网络的参数设置 121
8.3 神经网络实例——手写识别 127
8.3.1 使用MNIST数据集 128
8.3.2 训练MLP神经网络 129
8.3.3 使用模型进行数字识别 130
8.4 小结 131
第9章 数据预处理、降维、特征提取及聚类——快刀斩乱麻 131
9.1 数据预处理 134
9.1.1 使用StandardScaler进行数据预处理 134
9.1.2 使用MinMaxScaler进行数据预处理 135
9.1 .3 使用RobustScaler进行数据预处理 136
9.1.4 使用Normalizer进行数据预处理 137
9.1.5 通过数据预处理提高模型准确率 138
9.2 数据降维 140
9.2.1 PCA主成分分析原理 140
9.2.2 对数据降维以便于进行可视化 142
9.2.3 原始特征与PCA主成分之间的关系 143
9.3 特征提取 144
9.3.1 PCA主成分分析法用于特征提取 145
9.3.2 非负矩阵分解用于特征提取 148
9.4 聚类算法 149
9.4.1 K均值聚类算法 150
9.4.2 凝聚聚类算法 153
9.4.3 DBSCAN算法 154
9.5 小结 157
第10章 数据表达与特征工程——锦上再添花 160
10.1 数据表达 160
10.1.1 使用哑变量转化类型特征 160
10.1.2 对数据进行装箱处理 162
10.2 数据“升维” 166
10.2.1 向数据集添加交互式特征 166
10.2.2 向数据集添加多项式特征 170
10.3 自动特征选择 173
10.3.1 使用单一变量法进行特征选择 173
10.3.2 基于模型的特征选择 178
10.3.3 迭代式特征选择 180
10.4 小结 182
第11章 模型评估与优化——只有更好,没有最好 182
11.1 使用交叉验证进行模型评估 184
11.1.1 scikit-learn中的交叉验证法 184
11.1.2 随机拆分和“挨个儿试试” 186
11.1.3 为什么要使用交叉验证法 188
11.2 使用网格搜索优化模型参数 188
11.2.1 简单网格搜索 189
11.2.2 与交叉验证结合的网格搜索 191
11.3 分类模型的可信度评估 193
11.3.1 分类模型中的预测准确率 194
11.3.2 分类模型中的决定系数 197
11.4 小结 198
第12章 建立算法的管道模型——团结就是力量 202
12.1 管道模型的概念及用法 202
12.1.1 管道模型的基本概念 202
12.1.2 使用管道模型进行网格搜索 206
12.2 使用管道模型对股票涨幅进行回归分析 209
12.2.1 数据集准备 209
12.2.2 建立包含预处理和MLP模型的管道模型 213
12.2.3 向管道模型添加特征选择步骤 214
12.3 使用管道模型进行模型选择和参数调优 216
12.3.1 使用管道模型进行模型选择 216
12.3.2 使用管道模型寻找更优参数 217
12.4 小结 220
第13章 文本数据处理——亲,见字如“数” 222
13.1 文本数据的特征提取、中文分词及词袋模型 222
13.1.1 使用CountVectorizer对文本进行特征提取 222
13.1.2 使用分词工具对中文文本进行分词 223
13.1.3 使用词袋模型将文本数据转为数组 224
13.2 对文本数据进一步进行优化处理 226
13.2.1 使用n-Gram改善词袋模型 226
13.2.2 使用tf-idf模型对文本数据进行处理 228
13.2.3 删除文本中的停用词 234
13.3 小结 236
第14章 从数据获取到话题提取——从“研究员”到“段子手” 236
14.1 简单页面的爬取 238
14.1.1 准备Requests库和UserAgent 238
14.1.2 确定一个目标网站并分析其结构 240
14.1.3 进行爬取并保存为本地文件 241
14.2 稍微复杂一点的爬取 244
14.2.1 确定目标页面并进行分析 245
14.2.2 Python中的正则表达式 247
14.2.3 使用BeautifulSoup进行HTML解析 251
14.2.4 对目标页面进行爬取并保存到本地 256
14.3 对文本数据进行话题提取 258
14.3.1 寻找目标网站并分析结构 259
14.3.2 编写爬虫进行内容爬取 261
14.3.3 使用潜在狄利克雷分布进行话题提取 263
14.4 小结 265
第15章 人才需求现状与未来学习方向——你是不是下一个“大牛” 265
15.1 人才需求现状 268
15.1.1 全球AI从业者达190万,人才需求3年翻8倍 268
15.1.2 AI人才需求集中于一线城市,七成从业者月薪过万 269
15.1.3 人才困境仍难缓解,政策支援亟不可待 269
15.2 未来学习方向 270
15.2.1 用于大数据分析的计算引擎 270
15.2.2 深度学习开源框架 271
15.2.3 使用概率模型进行推理 272
15.3 技能磨炼与实际应用 272
15.3.1 Kaggle算法大赛平台和OpenML平台 272
15.3.2 在工业级场景中的应用 273
15.3.3 对算法模型进行A/B测试 273
15.4 小结 274
参考文献 275
- 《小手画出大世界 恐龙世界》登亚编绘 2008
- 《党员干部理论学习培训教材 理论热点问题党员干部学习辅导》(中国)胡磊 2018
- 《深度学习与飞桨PaddlePaddle Fluid实战》于祥 2019
- 《全国普通高等中医药院校药学类专业“十三五”规划教材 第二轮规划教材 有机化学学习指导 第2版》赵骏 2018
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《全国职业院校工业机器人技术专业规划教材 工业机器人现场编程》(中国)项万明 2019
- 《基于核心素养的有效学习与学业评价策略 初中政治》李亚莉主编 2018
- 《人体寄生虫学学习指导与习题集 供基础 临床 预防 口腔医学类专业用 第2版》诸欣平,苏川 2018
- 《大学信息技术基础学习与实验指导教程》安世虎主编 2019
- 《牛津中国心理学手册 上 认知与学习》(美)迈克尔·哈里斯·邦德主编;赵俊华,张春妹译 2019
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019