《社交大数据挖掘》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:周雪妍,林泽鸿编
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111577225
  • 页数:173 页
图书介绍:本书紧紧围绕社交媒体中的大数据问题,系统介绍了社交大数据的基本概念以及相关的大数据处理技术,重点介绍了网页和媒体的大数据挖掘。全书共分为14章,总体上可以分为三部分:第一部分包括第1章和第2章,介绍了社交大数据的基本概念和内涵,明晰了社交大数据与一般大数据的区别;第二部分为第3章至第9章,介绍了大数据处理中涉及的基本概念和技术方法,包括假设的定义、通过数据挖掘提出假设的方法,以及假设验证的分析方法;第三部分为第10章至第14章,详细介绍了社交大数据中的网页和媒体数据挖掘技术、自然语言处理技术,以及社交大数据的应用。本书体系结构完整,内容关注于具有鲜明特色的社交媒体大数据,行文通俗易懂,同时兼具较好的理论参考价值、实用性和指导性。本书可为具有一定相关专业基础、对大数据感兴趣的师生、工程师及其他专业人士提供参考。

第1章 社交媒体 1

1.1 什么是社交媒体 1

1.2 代表性社交媒体 2

1.2.1 Twitter 2

1.2.2 Flickr 4

1.2.3 YouTube 5

1.2.4 Facebook 7

1.2.5 维基百科 8

1.2.6 通用网络 10

1.2.7 其他社交媒体 11

参考文献 11

第2章 大数据和社交数据 13

2.1 大数据 13

2.2 物理真实世界与社交媒体的交互 15

2.3 集成框架 17

2.4 交互的建模和分析 19

2.5 元分析模型——概念层 21

2.5.1 面向对象的集成分析模型 21

2.5.2 原始案例 24

2.6 假设的生成和验证——逻辑层 25

2.6.1 多变量分析 25

2.6.2 数据挖掘 25

2.6.3 发现和识别影响 25

2.6.4 影响的定量测量 26

2.7 兴趣回顾——互动挖掘 27

2.8 分布式并行计算框架 28

2.8.1 NoSQL 28

2.8.2 MapReduce——一种并行分布式计算的机制 30

2.8.3 Hadoop 31

参考文献 33

第3章 大数据时代的假设 34

3.1 什么是假设 34

3.2 数据采样 36

3.3 假设验证 36

3.4 假设构建 37

3.4.1 归纳法 37

3.4.2 推理 38

3.4.3 可信推理 39

3.4.4 不明推论式 40

3.4.5 相关性 40

3.4.6 因果关系 41

3.4.7 类比 43

3.4.8 传递定律 44

3.5 假设的粒度 44

3.6 对假设的重新审视 45

参考文献 46

第4章 社交大数据应用 47

4.1 普通网页与社交媒体之间作为分析主体的差异 47

4.2 基于要素的社交媒体应用分类 48

4.3 基于目标的社交媒体应用分类 49

4.4 通过MipS模型描述模型 51

4.4.1 简单例子 51

4.4.2 更复杂的例子 55

4.4.3 伪相关关系 57

4.5 展望 59

参考文献 60

第5章 数据挖掘中的基本概念 61

5.1 什么是数据挖掘 61

5.2 技术问题和相关技术 62

5.3 数据挖掘任务 63

5.4 基本数据结构 64

5.5 数据质量 67

参考文献 68

第6章 关联规则挖掘 69

6.1 关联分析的应用 69

6.2 基本概念 70

6.3 各种关联规则 71

6.4 Apriori算法的概述 72

6.5 生成关联规则 76

参考文献 77

第7章 聚类 78

7.1 应用 78

7.2 数据结构 78

7.3 距离 79

7.4 聚类算法 80

7.5 基于分区的集群 81

7.6 分层聚类 83

7.7 聚类结果的评价 86

参考文献 87

第8章 分类 88

8.1 动机 88

8.2 分类任务 88

8.3 决策树归纳 89

8.4 测量属性选择 90

8.5 创建分类规则 92

8.6 扩展基本算法 92

8.7 模型精度 92

8.8 提高精度 93

8.9 其他模型 93

参考文献 95

第9章 预测 96

9.1 预测和分类 96

9.2 预测模型 97

9.2.1 多元回归模型 97

9.2.2 非线性函数的变换 97

9.2.3 路径分析模型 98

9.2.4 多指标模型 99

9.2.5 因子分析模型 100

9.2.6 因子的旋转 100

9.2.7 结构方程模型研究 101

9.2.8 因子修正或降维 103

参考文献 104

第10章 Web结构挖掘 105

10.1 Web挖掘 105

10.2 结构挖掘 106

10.2.1 文献计量学 106

10.2.2 引用参考数据库和影响因子 106

10.2.3 h指数——学术研究者的价值 108

10.2.4 声望 110

10.2.5 PageRank 110

10.2.6 HITS 113

参考文献 115

第11章 Web内容挖掘 116

11.1 搜索引擎 116

11.1.1 网页抓取 117

11.1.2 索引网页 118

11.1.3 网页排名 120

11.2 信息检索技术 121

11.2.1 特征 121

11.2.2 向量空间模型 121

11.2.3 查询结果的准确性 122

11.2.4 其他问题 123

11.3 网页分类 125

11.3.1 支持向量机 125

11.3.2 κ最近邻算法 125

11.3.3 朴素贝叶斯 126

11.4 网页聚类 127

11.5 微博总结 128

参考文献 129

第12章 Web访问日志挖掘 信息提取 深层Web挖掘 130

12.1 Web访问日志挖掘 130

12.1.1 访问日志挖掘和推荐 130

12.1.2 聚类访问模式 132

12.1.3 合作滤波和Web个性化 133

12.2 信息提取 134

12.2.1 信息提取中的任务 134

12.2.2 信息提取中的问题 135

12.2.3 信息提取方法 136

12.3 Web深层挖掘 137

参考文献 139

第13章 媒体挖掘 141

13.1 XML挖掘 141

13.1.1 挖掘XML 141

13.1.2 XML结构挖掘 142

13.1.3 XML内容挖掘 146

13.2 挖掘更普遍的结构 147

13.3 多媒体数据挖掘 152

13.4 流数据挖掘 154

13.4.1 基本技术 154

13.4.2 数据挖掘任务 155

参考文献 157

第14章 可扩展性和异常检测 160

14.1 关联分析的可扩展性 160

14.1.1 不共享内存 160

14.1.2 共享内存 161

14.2 聚类可扩展性的方法 161

14.2.1 分层方法 161

14.2.2 基于密度的聚类 162

14.2.3 图聚类 165

14.3 分类和其他任务的可扩展性 167

14.4 异常值检测 168

参考文献 169

附录 171

附录A在大数据时代数据科学家所需的能力和专业知识 171

附录B关于结构、内容和访问日志挖掘技术之间关系的备注 172