当前位置:首页 > 工业技术
跟着迪哥学Python数据分析与机器学习实战
跟着迪哥学Python数据分析与机器学习实战

跟着迪哥学Python数据分析与机器学习实战PDF电子书下载

工业技术

  • 电子书积分:14 积分如何计算积分?
  • 作 者:唐宇迪著
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2019
  • ISBN:9787115512444
  • 页数:449 页
图书介绍:全书共20章,大致分为4个部分。第1部分介绍了Python必备的工具包,包括科学计算库Numpy、数据分析库Pandas、可视化库Matplotlib;第2部分讲解了机器学习中的经典算法,例如回归算法、决策树、集成算法、支持向量机、聚类算法等;第3部分介绍了深度学习中的常用算法,包括神经网络、卷积神经网络、递归神经网络;第4部分是项目实战,基于真实数据集,将算法模型应用到实际业务中。
《跟着迪哥学Python数据分析与机器学习实战》目录

第1章 人工智能入门指南 1

1.1 AI时代首选Python 2

1.1.1 Python的特点 2

1.1.2 Python该怎么学 2

1.2 人工智能的核心——机器学习 3

1.2.1 什么是机器学习 3

1.2.2 机器学习的流程 4

1.2.3 机器学习该怎么学 5

1.3 环境配置 5

1.3.1 Anaconda大礼包 6

1.3.2 Jupyter Notebook 9

1.3.3 上哪儿找资源 11

本章总结 12

第2章 科学计算库(Numpy) 13

2.1 Numpy的基本操作 14

2.1.1 array数组 14

2.1.2 数组特性 15

2.1.3 数组属性操作 16

2.2 索引与切片 17

2.2.1 数值索引 17

2.2.2 bool索引 18

2.3 数据类型与数值计算 20

2.3.1 数据类型 20

2.3.2 复制与赋值 20

2.3.3 数值运算 21

2.3.4 矩阵乘法 24

2.4 常用功能模块 25

2.4.1 排序操作 25

2.4.2 数组形状操作 26

2.4.3 数组的拼接 28

2.4.4 创建数组函数 29

2.4.5 随机模块 31

2.4.6 文件读写 33

本章总结 37

第3章 数据分析处理库(Pandas) 38

3.1 数据预处理, 39

3.1.1 数据读取 39

3.1.2 DataFrame结构 40

3.1.3 数据索引 42

3.1.4 创建DataFrame 46

3.1.5 Series操作 48

3.2 数据分析 51

3.2.1 统计分析 51

3.2.2 pivot数据透视表 55

3.2.3 groupby操作 58

3.3 常用函数操作 63

3.3.1 Merge操作 63

3.3.2 排序操作 66

3.3.3 缺失值处理 67

3.3.4 apply自定义函数 70

3.3.5 时间操作 73

3.3.6 绘图操作 76

3.4 大数据处理技巧 79

3.4.1 数值类型转换 79

3.4.2 属性类型转换 82

本章总结 84

第4章 数据可视化库(Matplotlib) 85

4.1 常规绘图方法 86

4.1.1 细节设置 86

4.1.2 子图与标注 90

4.1.3 风格设置 97

4.2 常用图表绘制 99

4.2.1 条形图 99

4.2.2 盒图 102

4.2.3 直方图与散点图 105

4.2.4 3D图 107

4.2.5 布局设置 110

本章总结 111

第5章 回归算法 112

5.1 线性回归算法 113

5.1.1 线性回归方程 113

5.1.2 误差项分析 114

5.1.3 似然函数求解 115

5.1.4 线性回归求解 117

5.2 梯度下降算法 117

5.2.1 下山方向选择 118

5.2.2 梯度下降优化 119

5.2.3 梯度下降策略对比 120

5.2.4 学习率对结果的影响 121

5.3 逻辑回归算法 122

5.3.1 原理推导 122

5.3.2 逻辑回归求解 124

本章总结 125

第6章 逻辑回归项目实战——信用卡欺诈检测 126

6.1 数据分析与预处理 127

6.1.1 数据读取与分析 127

6.1.2 样本不均衡解决方案 129

6.1.3 特征标准化 129

6.2 下采样方案 133

6.2.1 交叉验证 134

6.2.2 模型评估方法 137

6.2.3 正则化惩罚 139

6.3 逻辑回归模型 141

6.3.1 参数对结果的影响 141

6.3.2 混淆矩阵 144

6.3.3 分类阈值对结果的影响 147

6.4 过采样方案 149

6.4.1 SMOTE数据生成策略 150

6.4.2 过采样应用效果 151

项目总结 152

第7章 决策树 154

7.1 决策树原理 155

7.1.1 决策树的基本概念 155

7.1.2 衡量标准 156

7.1.3 信息增益 158

7.1.4 决策树构造实例 159

7.1.5 连续值问题 161

7.1.6 信息增益率 161

7.1.7 回归问题求解 162

7.2 决策树剪枝策略 162

7.2.1 剪枝策略 162

7.2.2 决策树算法涉及参数 163

本章总结 164

第8章 集成算法 165

8.1 bagging算法 166

8.1.1 并行的集成 166

8.1.2 随机森林 166

8.2 boosting算法 170

8.2.1 串行的集成 170

8.2.2 Adaboost算法 171

8.3 stacking模型 173

本章总结 174

第9章 随机森林项目实战——气温预测 175

9.1 随机森林建模 176

9.1.1 特征可视化与预处理 177

9.1.2 随机森林回归模型 183

9.1.3 树模型可视化方法 184

9.1.4 特征重要性 189

9.2 数据与特征对结果影响分析 192

9.2.1 特征工程 194

9.2.2 数据量对结果影响分析 196

9.2.3 特征数量对结果影响分析 199

9.3 模型调参 206

9.3.1 随机参数选择 208

9.3.2 网络参数搜索 212

项目总结 216

第10章 特征工程 217

10.1 数值特征 218

10.1.1 字符串编码 218

10.1.2 二值与多项式特征 222

10.1.3 连续值离散化 225

10.1.4 对数与时间变换 228

10.2 文本特征 230

10.2.1 词袋模型 230

10.2.2 常用文本特征构造方法 234

10.3 论文与benchmark 237

本章总结 240

第11章 贝叶斯算法项目实战——新闻分类 241

11.1 贝叶斯算法 242

11.1.1 贝叶斯公式 242

11.1.2 拼写纠错实例 244

11.1.3 垃圾邮件分类 246

11.2 新闻分类任务 248

11.2.1 数据清洗 249

11.2.2 TF-IDF关键词提取 253

项目总结 259

第12章 支持向量机 260

12.1 支持向量机工作原理 261

12.1.1 支持向量机要解决的问题 261

12.1.2 距离与标签定义 262

12.1.3 目标函数 263

12.1.4 拉格朗日乘子法 264

12.2 支持向量的作用 266

12.2.1 支持向量机求解 266

12.2.2 支持向量的作用 267

12.3 支持向量机涉及参数 268

12.3.1 软间隔参数的选择 268

12.3.2 核函数的作用 270

12.4 案例:参数对结果的影响 272

12.4.1 SVM基本模型 272

12.4.2 核函数变换 277

12.4.3 SVM参数选择 279

12.4.4 SVM人脸识别实例 281

本章总结 284

第13章 推荐系统 285

13.1 推荐系统的应用 286

13.2 协同过滤算法 288

13.2.1 基于用户的协同过滤 288

13.2.2 基于商品的协同过滤 291

13.3 隐语义模型 292

13.3.1 矩阵分解思想 292

13.3.2 隐语义模型求解 294

13.3.3 评估方法 296

本章总结 296

第14章 推荐系统项目实战——打造音乐推荐系统 297

14.1 数据集清洗 298

14.1.1 统计分析 299

14.1.2 数据集整合 303

14.2 基于相似度的推荐 308

14.2.1 排行榜推荐 309

14.2.2 基于歌曲相似度的推荐 310

14.3 基于矩阵分解的推荐 313

14.3.1 奇异值分解 313

14.3.2 使用SVD算法进行音乐推荐 317

项目总结 322

第15章 降维算法 323

15.1 线性判别分析 324

15.1.1 降维原理概述 324

15.1.2 优化的目标 325

15.1.3 线性判别分析求解 326

15.1.4 Python实现线性判别分析降维 328

15.2 主成分分析 335

15.2.1 PCA降维基本知识点 335

15.2.2 PCA优化目标求解 336

15.2.3 Python实现PCA降维 338

本章总结 345

第16章 聚类算法 346

16.1 K-means算法 347

16.1.1 聚类的基本特性 347

16.1.2 K-means算法原理 348

16.1.3 K-means涉及参数 350

16.1.4 K-means聚类效果与优缺点 352

16.2 DBSCAN聚类算法 353

16.2.1 DBSCAN算法概述 353

16.2.2 DBSCAN工作流程 354

16.2.3 半径对结果的影响 357

16.3 聚类实例 358

本章总结 363

第17章 神经网络 364

17.1 神经网络必备基础 365

17.1.1 神经网络概述 365

17.1.2 计算机眼中的图像 367

17.1.3 得分函数 368

17.1.4 损失函数 370

17.1.5 反向传播 372

17.2 神经网络整体架构 374

17.2.1 整体框架 374

17.2.2 神经元的作用 376

17.2.3 正则化 378

17.2.4 激活函数 379

17.3 网络调优细节 381

17.3.1 数据预处理 381

17.3.2 Drop-Out 382

17.3.3 数据增强 383

17.3.4 网络结构设计 384

本章总结 384

第18章 TensorFlow实战 386

18.1 TensorFlow基本操作 387

18.1.1 TensorFlow特性 387

18.1.2 TensorFlow基本操作 389

18.1.3 TensorFlow实现回归任务 392

18.2 搭建神经网络进行手写字体识别 395

本章总结 402

第19章 卷积神经网络 403

19.1 卷积操作原理 404

19.1.1 卷积神经网络应用 404

19.1.2 卷积操作流程 406

19.1.3 卷积计算方法 408

19.1.4 卷积涉及参数 411

19.1.5 池化层 415

19.2 经典网络架构 416

19.2.1 卷积神经网络整体架构 416

19.2.2 AlexNet网络 417

19.2.3 VGG网络 418

19.2.4 ResNet网络 421

19.3 TensorFlow实战卷积神经网络 424

本章总结 427

第20章 神经网络项目实战——影评情感分析 428

20.1 递归神经网络 429

20.1.1 RNN网络架构 429

20.1.2 LSTM网络 430

20.2 影评数据特征工程 431

20.2.1 词向量 432

20.2.2 数据特征制作 436

20.3 构建RNN模型 444

项目总结 449

返回顶部