第1章 基础知识 1
1.1准备数据 1
1.1.1数据格式 1
1.1.2变量类型 2
1.1.3变量选择 3
1.1.4特征工程 3
1.1.5缺失数据 4
1.2选择算法 4
1.2.1无监督学习 5
1.2.2监督学习 6
1.2.3强化学习 7
1.2.4注意事项 7
1.3参数调优 7
1.4评价模型 9
1.4.1分类指标 9
1.4.2回归指标 10
1.4.3验证 10
1.5小结 11
第2章 k均值聚类 13
2.1找出顾客群 13
2.2示例:影迷的性格特征 13
2.3定义群组 16
2.3.1有多少个群组 16
2.3.2每个群组中有谁 17
2.4局限性 18
2.5小结 19
第3章 主成分分析 21
3.1食物的营养成分 21
3.2主成分 22
3.3示例:分析食物种类 24
3.4局限性 27
3.5小结 29
第4章 关联规则 31
4.1发现购买模式 31
4.2支持度、置信度和提升度 31
4.3示例:分析杂货店的销售数据 33
4.4先验原则 35
4.4.1寻找具有高支持度的项集 36
4.4.2寻找具有高置信度或高提升度的关联规则 37
4.5局限性 37
4.6小结 37
第5章 社会网络分析 39
5.1展现人际关系 39
5.2示例:国际贸易 40
5.3 Louvam方法 42
5.4 PageRank算法 43
5.5局限性 46
5.6小结 47
第6章 回归分析 49
6.1趋势线 49
6.2示例:预测房价 49
6.3梯度下降法 52
6.4回归系数 54
6.5相关系数 55
6.6局限性 56
6.7小结 57
第7章 k最近邻算法和异常检测 59
7.1食品检测 59
7.2物以类聚,人以群分 60
7.3示例:区分红白葡萄酒 61
7.4异常检测 62
7.5局限性 63
7.6小结 63
第8章 支持向量机 65
8.1医学诊断 65
8.2示例:预测心脏病 65
8.3勾画最佳分界线 66
8.4局限性 69
8.5小结 69
第9章 决策树 71
9.1预测灾难幸存者 71
9.2示例:逃离泰坦尼克号 72
9.3生成决策树 73
9.4局限性 74
9.5小结 75
第10章 随机森林 77
10.1集体智慧 77
10.2示例:预测犯罪行为 77
10.3集成模型 81
10.4自助聚集法 82
10.5局限性 83
10.6小结 84
第11章 神经网络 85
11.1建造人工智能大脑 85
11.2示例:识别手写数字 86
11.3神经网络的构成 89
11.4激活规则 91
11.5局限性 92
11.6小结 94
第12章 A/B测试和多臂老虎机 95
12.1初识A/B测试 95
12.2 A/B测试的局限性 95
12.3 epsilon递减策略 96
12.4示例:多臂老虎机 97
12.5胜者为先 99
12.6 epsilon递减策略的局限性 99
12.7小结 100
附录A 无监督学习算法概览 101
附录B 监督学习算法概览 102
附录C 调节参数列表 103
附录D 更多评价指标 104
术语表 107
关于作者 114