第1章 Mahout入门 1
秘笈1 安装Java和Hadoop 1
秘笈2 设置Maven和NetBeans开发环境 6
秘笈3 编写一个基本的推荐系统 9
第2章 使用序列文件——什么时候和为什么 19
秘笈4 从命令行创建序列文件 20
秘笈5 编写代码创建序列文件 23
秘笈6 编码实现读取序列文件 28
第3章 将Mahout和外部资源整合 33
秘笈7 导入外部资源到HDFS 34
秘笈8 将数据从HDFS导入到RDBMS 43
秘笈9 创建一个Sqoop作业来处理RDBMS 45
秘笈10 使用SqoopAPI导入数据 47
第4章 实现朴素贝叶斯分类器 49
秘笈11 使用Mahout文本分类器演示基本的使用样例 50
秘笈12 编码实现朴素贝叶斯分类器 60
秘笈13 通过命令行使用互补朴素贝叶斯 64
秘笈14 编码使用互补朴素贝叶斯分类器 65
第5章 股市预测 67
秘笈15 为logistic回归准备数据 67
秘笈16 使用logistic预测GOOG股票动态 71
秘笈17 通过Java编码使用自适应的logistic回归 76
秘笈18 在大规模的数据集上使用logistic回归 79
秘笈19 使用随机森林预测市场动态 83
第6章 顶棚聚类 87
秘笈20 基于命令行的顶棚聚类 87
秘笈21 基于带参数命令行的顶棚聚类 91
秘笈22 通过Java代码使用顶棚聚类 95
秘笈23 编写你自己的距离估计 98
第7章 频谱聚类 101
秘笈24 通过命令行使用EigenCuts 101
秘笈25 在Java代码中使用EigenCuts 104
秘笈26 从原始数据创建相似度矩阵 108
秘笈27 使用频谱聚类进行图像分割 114
第8章 K-均值聚类 119
秘笈28 在Java代码中使用K-均值聚类 119
秘笈29 使用K-均值聚类对交通事故进行聚类 124
秘笈30 使用MapReduce进行K-均值聚类 128
秘笈31 命令行方式使用K-均值聚类 132
第9章 软计算 139
秘笈32 使用Mahout进行频繁模式挖掘 139
秘笈33 为频繁模式挖掘创建评价准则 142
秘笈34 在Java代码中使用频繁模式挖掘 147
秘笈35 使用LDA创建主题 153
第10章 实现遗传算法 159
秘笈36 设置Mahout以便使用遗传算法 159
秘笈37 在图上使用遗传算法 163
秘笈38 在Java代码中使用遗传算法 167