《Mahout实践指南》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:(美)贾科梅利著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2014
  • ISBN:9787111467144
  • 页数:176 页
图书介绍:本书共包括10章。第1章介绍在单台机器上创建完整的Mahout开发环境。第2章重点介绍序列文件的使用方式。第3章详细介绍使用命令行工具和代码从RDBMS中读写数据。第4章详细讨论朴素贝叶斯分类器和互补朴素贝叶斯分类器的使用方法。第5章通过两个算法logistic回归和随机森林预测股市。第6章描述Mahout框架中最常用的算法,包括大数据的聚类分析和分类。第7章描述频谱聚类的使用方式。第8章描述使用K—均值(包括序列方式和MapReduce方式)对主题中的文本文档进行分类。第9章介绍频繁模式挖掘算法的使用方式。第10章描述使用遗传算法解决旅行商问题和提取规则。

第1章 Mahout入门 1

秘笈1 安装Java和Hadoop 1

秘笈2 设置Maven和NetBeans开发环境 6

秘笈3 编写一个基本的推荐系统 9

第2章 使用序列文件——什么时候和为什么 19

秘笈4 从命令行创建序列文件 20

秘笈5 编写代码创建序列文件 23

秘笈6 编码实现读取序列文件 28

第3章 将Mahout和外部资源整合 33

秘笈7 导入外部资源到HDFS 34

秘笈8 将数据从HDFS导入到RDBMS 43

秘笈9 创建一个Sqoop作业来处理RDBMS 45

秘笈10 使用SqoopAPI导入数据 47

第4章 实现朴素贝叶斯分类器 49

秘笈11 使用Mahout文本分类器演示基本的使用样例 50

秘笈12 编码实现朴素贝叶斯分类器 60

秘笈13 通过命令行使用互补朴素贝叶斯 64

秘笈14 编码使用互补朴素贝叶斯分类器 65

第5章 股市预测 67

秘笈15 为logistic回归准备数据 67

秘笈16 使用logistic预测GOOG股票动态 71

秘笈17 通过Java编码使用自适应的logistic回归 76

秘笈18 在大规模的数据集上使用logistic回归 79

秘笈19 使用随机森林预测市场动态 83

第6章 顶棚聚类 87

秘笈20 基于命令行的顶棚聚类 87

秘笈21 基于带参数命令行的顶棚聚类 91

秘笈22 通过Java代码使用顶棚聚类 95

秘笈23 编写你自己的距离估计 98

第7章 频谱聚类 101

秘笈24 通过命令行使用EigenCuts 101

秘笈25 在Java代码中使用EigenCuts 104

秘笈26 从原始数据创建相似度矩阵 108

秘笈27 使用频谱聚类进行图像分割 114

第8章 K-均值聚类 119

秘笈28 在Java代码中使用K-均值聚类 119

秘笈29 使用K-均值聚类对交通事故进行聚类 124

秘笈30 使用MapReduce进行K-均值聚类 128

秘笈31 命令行方式使用K-均值聚类 132

第9章 软计算 139

秘笈32 使用Mahout进行频繁模式挖掘 139

秘笈33 为频繁模式挖掘创建评价准则 142

秘笈34 在Java代码中使用频繁模式挖掘 147

秘笈35 使用LDA创建主题 153

第10章 实现遗传算法 159

秘笈36 设置Mahout以便使用遗传算法 159

秘笈37 在图上使用遗传算法 163

秘笈38 在Java代码中使用遗传算法 167