第1章 数据挖掘入门 1
1.1什么是数据挖掘 1
1.2使用Python和Jupyter Notebook 3
1.2.1安装Python 3
1.2.2安装Jupyter Notebook 4
1.2.3安装scikit-l earn 5
1.3亲和性分析的简单示例 6
1.4商品推荐 6
1.4.1用NumPy加载数据集 7
1.4.2实现规则的简单排序 9
1.4.3挑选最佳规则 11
1.5分类的简单示例 13
1.6什么是分类 14
1.6.1准备数据集 14
1.6.2实现OneR算法 15
1.6.3测试算法功能 17
1.7本章小结 19
第2章 用scikit-learn估计器解决分类问题 20
2.1 scikit-learn估计器 20
2.1.1最近邻算法 21
2.1.2距离度量 22
2.1.3加载数据集 24
2.1.4形成标准的工作流程 25
2.1.5运行算法 26
2.1.6设置参数 27
2.2预处理 29
2.2.1标准预处理 30
2.2.2组装成型 31
2.3流水线 31
2.4本章小结 32
第3章 用决策树预测获胜球队 34
3.1加载数据集 34
3.1.1收集数据 35
3.1.2用pandas加载数据集 35
3.1.3清洗数据集 36
3.1.4提取新特征 37
3.2决策树 39
3.2.1决策树的参数 40
3.2.2决策树的使用 41
3.3体育赛事结果预测 42
3.4随机森林 45
3.4.1集成学习的原理 46
3.4.2设置随机森林的参数 46
3.4.3应用随机森林 47
3.4.4创建特征 48
3.5本章小结 49
第4章 用亲和性分析推荐电影 50
4.1亲和性分析 50
4.1.1亲和性分析算法 51
4.1.2总体方法 52
4.2电影推荐问题 52
4.3 Apriori算法的原理与实现 54
4.3.1 Apriori算法的基本思路 56
4.3.2实现Apriori算法 57
4.3.3提取关联规则 59
4.3.4评估关联规则 62
4.4本章小结 64
第5章 特征与scikit-learn转换器 65
5.1特征提取 65
5.1.1用模型表述现实 66
5.1.2常见的特征模式 68
5.1.3创建好的特征 71
5.2特征的选取 71
5.3特征创建 76
5.4主成分分析 78
5.5创建自己的转换器 80
5.5.1转换器API 81
5.5.2实现转换器 81
5.6单元测试 82
5.7组装成型 83
5.8本章小结 84
第6章 用朴素贝叶斯算法探索社交媒体 85
6.1消歧 85
6.2从社交媒体下载数据 87
6.2.1加载数据集并分类 89
6.2.2创建可重现的Twitter数据集 92
6.3文本转换器 95
6.3.1词袋模型 95
6.3.2 n元语法特征 96
6.3.3其他文本特征 97
6.4朴素贝叶斯 98
6.4.1理解贝叶斯定理 98
6.4.2朴素贝叶斯算法 99
6.4.3原理展示 100
6.5朴素贝叶斯的应用 101
6.5.1提取单词计数 102
6.5.2把字典转换成矩阵 103
6.5.3组装成型 103
6.5.4用F1 score评估算法 104
6.6从模型中找出有用的特征 105
6.7本章小结 107
第7章 用图挖掘实现推荐关注 109
7.1加载数据集 109
7.2从Twitter获取关注者信息 113
7.3创建图 116
7.4寻找子图 122
7.4.1连通分量 122
7.4.2优化准则 125
7.5本章小结 127
第8章 用神经网络识别验证码 129
8.1人工神经网络 130
8.2创建数据集 132
8.2.1绘制简单的验证码 133
8.2.2按字母分割图像 135
8.2.3创建训练数据集 137
8.3训练与分类 139
8.4预测单词 143
8.4.1用词典提升准确率 146
8.4.2单词相似度的排名机制 146
8.4.3组装成型 147
8.5本章小结 148
第9章 作者归属问题 149
9.1文档的作者归属 149
9.1.1应用与场景 150
9.1.2作者归属 151
9.2获取数据 152
9.3功能词的使用 155
9.3.1统计功能词 156
9.3.2用功能词分类 158
9.4支持向量机 159
9.4.1用支持向量机分类 160
9.4.2核函数 160
9.5字符n元语法 161
9.6安然(Enron)数据集 162
9.6.1获取安然数据集 163
9.6.2创建数据集加载函数 163
9.7组装成型 166
9.8评估 166
9.9本章小结 168
第10章 聚类新闻文章 169
10.1发现热门话题 169
10.1.1用Web API获取数据 170
10.1.2把reddit作为数据源 172
10.1.3获取数据 173
10.2从任意网站提取文本 175
10.2.1寻找任意网站中的新闻报道内容 176
10.2.2提取内容 177
10.3为新闻文章分组 179
10.4 k-均值算法 179
10.4.1评估结果 182
10.4.2从聚类簇中提取话题信息 184
10.4.3把聚类算法作为转换器 185
10.5聚类集成 185
10.5.1证据积累方法 185
10.5.2工作原理 188
10.5.3算法实现 190
10.6在线学习 191
10.7本章小结 194
第11章 用深度神经网络实现图像中的对象检测 195
11.1对象分类 195
11.2应用场景 197
11.3深度神经网络 199
11.3.1直观感受 199
11.3.2实现深度神经网络 200
11.4 TensorFlow简介 201
11.5使用Keras 204
11.6 GPU优化 210
11.6.1适用GPU的计算场景 211
11.6.2在GPU上运行代码 212
11.6.3设置环境 213
11.7应用 214
11.7.1获取数据 214
11.7.2创建神经网络 215
11.7.3组装成型 216
11.8本章小结 217
第12章 大数据处理 219
12.1大数据 219
12.2 MapReduce 222
12.2.1直观感受 223
12.2.2 HadoopMapReduce 226
12.3应用MapReduce 227
12.4朴素贝叶斯预测 229
12.5提取博客文章 229
12.6训练朴素贝叶斯 231
12.7组装成型 235
12.8在亚马逊EMR基础设施上训练 239
12.9本章小结 241
附录A 下一步工作 242