1 大数据采集处理方法 1
1.1 爬虫程序设计方案 1
1.2 爬虫程序实现方法 5
1.3 数据清洗 20
2 大数据存储方法 27
2.1 分布式文件系统存储大数据 27
2.1.1 HDFS体系结构 27
2.1.2 HDFS数据存储方式 28
2.1.3 HDFS读写方式 28
2.2 分布式数据库存储大数据 32
2.2.1 Hbase体系结构 32
2.2.2 配置Hbase 33
2.2.3 Hbase表操作 38
2.2.4 访问Hbase数据资源 44
3 大数据计算方法 50
3.1 分布式计算平台构建方法 50
3.2 分布式计算框架构建方法 60
3.3 分布式计算程序设计方法 63
4 大数据分析模型构建方法 77
4.1 准备训练数据 77
4.2 机器学习路径和算法设计方法 81
4.3 数据可视化辅助建模方法 87
4.4 构建大数据分析模型 90
5 大数据分析模型检验方法 107
5.1 回归诊断 107
5.2 交叉验证 112
6 大数据分析模型优化方法 116
6.1 Feature Scaling优化法 116
6.2 逐步回归优化法 117
6.3 PCA主成分分析优化方法 119
6.4 神经网络优化大数据分析模型 126
参考文献 150