第1章 社交媒体 1
1.1 什么是社交媒体 1
1.2 代表性社交媒体 2
1.2.1 Twitter 2
1.2.2 Flickr 4
1.2.3 YouTube 5
1.2.4 Facebook 7
1.2.5 维基百科 8
1.2.6 通用网络 10
1.2.7 其他社交媒体 11
参考文献 11
第2章 大数据和社交数据 13
2.1 大数据 13
2.2 物理真实世界与社交媒体的交互 15
2.3 集成框架 17
2.4 交互的建模和分析 19
2.5 元分析模型——概念层 21
2.5.1 面向对象的集成分析模型 21
2.5.2 原始案例 24
2.6 假设的生成和验证——逻辑层 25
2.6.1 多变量分析 25
2.6.2 数据挖掘 25
2.6.3 发现和识别影响 25
2.6.4 影响的定量测量 26
2.7 兴趣回顾——互动挖掘 27
2.8 分布式并行计算框架 28
2.8.1 NoSQL 28
2.8.2 MapReduce——一种并行分布式计算的机制 30
2.8.3 Hadoop 31
参考文献 33
第3章 大数据时代的假设 34
3.1 什么是假设 34
3.2 数据采样 36
3.3 假设验证 36
3.4 假设构建 37
3.4.1 归纳法 37
3.4.2 推理 38
3.4.3 可信推理 39
3.4.4 不明推论式 40
3.4.5 相关性 40
3.4.6 因果关系 41
3.4.7 类比 43
3.4.8 传递定律 44
3.5 假设的粒度 44
3.6 对假设的重新审视 45
参考文献 46
第4章 社交大数据应用 47
4.1 普通网页与社交媒体之间作为分析主体的差异 47
4.2 基于要素的社交媒体应用分类 48
4.3 基于目标的社交媒体应用分类 49
4.4 通过MipS模型描述模型 51
4.4.1 简单例子 51
4.4.2 更复杂的例子 55
4.4.3 伪相关关系 57
4.5 展望 59
参考文献 60
第5章 数据挖掘中的基本概念 61
5.1 什么是数据挖掘 61
5.2 技术问题和相关技术 62
5.3 数据挖掘任务 63
5.4 基本数据结构 64
5.5 数据质量 67
参考文献 68
第6章 关联规则挖掘 69
6.1 关联分析的应用 69
6.2 基本概念 70
6.3 各种关联规则 71
6.4 Apriori算法的概述 72
6.5 生成关联规则 76
参考文献 77
第7章 聚类 78
7.1 应用 78
7.2 数据结构 78
7.3 距离 79
7.4 聚类算法 80
7.5 基于分区的集群 81
7.6 分层聚类 83
7.7 聚类结果的评价 86
参考文献 87
第8章 分类 88
8.1 动机 88
8.2 分类任务 88
8.3 决策树归纳 89
8.4 测量属性选择 90
8.5 创建分类规则 92
8.6 扩展基本算法 92
8.7 模型精度 92
8.8 提高精度 93
8.9 其他模型 93
参考文献 95
第9章 预测 96
9.1 预测和分类 96
9.2 预测模型 97
9.2.1 多元回归模型 97
9.2.2 非线性函数的变换 97
9.2.3 路径分析模型 98
9.2.4 多指标模型 99
9.2.5 因子分析模型 100
9.2.6 因子的旋转 100
9.2.7 结构方程模型研究 101
9.2.8 因子修正或降维 103
参考文献 104
第10章 Web结构挖掘 105
10.1 Web挖掘 105
10.2 结构挖掘 106
10.2.1 文献计量学 106
10.2.2 引用参考数据库和影响因子 106
10.2.3 h指数——学术研究者的价值 108
10.2.4 声望 110
10.2.5 PageRank 110
10.2.6 HITS 113
参考文献 115
第11章 Web内容挖掘 116
11.1 搜索引擎 116
11.1.1 网页抓取 117
11.1.2 索引网页 118
11.1.3 网页排名 120
11.2 信息检索技术 121
11.2.1 特征 121
11.2.2 向量空间模型 121
11.2.3 查询结果的准确性 122
11.2.4 其他问题 123
11.3 网页分类 125
11.3.1 支持向量机 125
11.3.2 κ最近邻算法 125
11.3.3 朴素贝叶斯 126
11.4 网页聚类 127
11.5 微博总结 128
参考文献 129
第12章 Web访问日志挖掘 信息提取 深层Web挖掘 130
12.1 Web访问日志挖掘 130
12.1.1 访问日志挖掘和推荐 130
12.1.2 聚类访问模式 132
12.1.3 合作滤波和Web个性化 133
12.2 信息提取 134
12.2.1 信息提取中的任务 134
12.2.2 信息提取中的问题 135
12.2.3 信息提取方法 136
12.3 Web深层挖掘 137
参考文献 139
第13章 媒体挖掘 141
13.1 XML挖掘 141
13.1.1 挖掘XML 141
13.1.2 XML结构挖掘 142
13.1.3 XML内容挖掘 146
13.2 挖掘更普遍的结构 147
13.3 多媒体数据挖掘 152
13.4 流数据挖掘 154
13.4.1 基本技术 154
13.4.2 数据挖掘任务 155
参考文献 157
第14章 可扩展性和异常检测 160
14.1 关联分析的可扩展性 160
14.1.1 不共享内存 160
14.1.2 共享内存 161
14.2 聚类可扩展性的方法 161
14.2.1 分层方法 161
14.2.2 基于密度的聚类 162
14.2.3 图聚类 165
14.3 分类和其他任务的可扩展性 167
14.4 异常值检测 168
参考文献 169
附录 171
附录A在大数据时代数据科学家所需的能力和专业知识 171
附录B关于结构、内容和访问日志挖掘技术之间关系的备注 172