1 社会网络数据分析概述 1
1.1 引言 1
1.2 在线社会网络:研究方向 3
1.3 社会网络的研究内容 5
1.4 总结与展望 7
2 社会网络的统计特性 10
2.1 预备知识 11
2.2 静态属性 16
2.3 动态属性 20
2.4 结论 26
3 社会网络中的随机游走及其应用:研究综述 30
3.1 引言 30
3.2 图上随机游走:背景 31
3.2.1 基于随机游走的相似性测度 31
3.2.2 其他基于图的相似性测度 35
3.2.3 半监督学习的图论方法 36
3.2.4 用基于随机游走的方法聚类 38
3.3 相关研究:算法 39
3.3.1 命中时间和往返时间的算法 39
3.3.2 计算个性化PageRank和Simrank的算法 40
3.3.3 计算调和函数的算法 42
3.4 相关研究:应用 42
3.4.1 在机器视觉中的应用 43
3.4.2 文本分析 43
3.4.3 协同过滤 44
3.4.4 处理Web垃圾 44
3.5 相关研究:评估和数据集 44
3.5.1 评估:连接预测 44
3.5.2 公开数据源 45
3.6 结论及未来研究工作 46
4 社会网络中的社团发现:应用、方法与趋势 53
4.1 引言 53
4.2 特定上下文环境中的社团 54
4.3 核心方法 56
4.3.1 质量函数 56
4.3.2 Kernighan-Lin(KL)算法 57
4.3.3 合并/分解算法 57
4.3.4 谱算法 58
4.3.5 多层图划分 59
4.3.6 马尔科夫聚类 59
4.3.7 其他方法 60
4.4 新出现的领域和问题 62
4.4.1 动态网络中的社团发现 62
4.4.2 异构网络中的社团发现 63
4.4.3 有向网络中的社团发现 64
4.4.4 在社团发现中结合内容信息和关系信息 65
4.5 交叉性问题及结论 66
5 社会网络中的顶点分类 76
5.1 引言 76
5.2 问题描述 78
5.2.1 将数据表示为图 78
5.2.2 顶点分类问题 81
5.3 使用局部分类器的方法 81
5.3.1 迭代分类方法 82
5.4 基于随机游走的方法 83
5.4.1 标识传播 84
5.4.2 图正则化 86
5.4.3 吸附 88
5.5 大规模社会网络中的顶点分类 90
5.5.1 基本方法 90
5.5.2 二阶方法 90
5.5.3 Map-Reduce中的实现 90
5.6 相关方法 91
5.6.1 使用图模型推理 92
5.6.2 参数标注 92
5.6.3 谱划分 93
5.6.4 图聚类 93
5.7 顶点分类的相关问题 94
5.7.1 相异标识 94
5.7.2 边标注 94
5.7.3 标识摘要 95
5.8 结论 95
5.8.1 未来研究方向和挑战 95
5.8.2 延伸阅读 96
6 社会网络中的演化:研究综述 99
6.1 引言 99
6.2 框架 100
6.2.1 时间轴上的网络建模 100
6.2.2 四个维度的演化 101
6.3 社会网络流的挑战 102
6.4 社团追踪的增量挖掘 103
6.5 追踪平滑演化社团 106
6.5.1 簇的时间平滑性 106
6.5.2 动态概率模型 107
6.6 社会网络演化规律 110
6.7 结论 111
7 社会影响力分析模型和算法综述 117
7.1 引言 117
7.2 与统计学相关的影响力 118
7.2.1 边测度 118
7.2.2 顶点测度 119
7.3 社会相似性与影响力 121
7.3.1 同质性 121
7.3.2 社会影响力的存在性测试 124
7.3.3 影响力与行为 125
7.3.4 影响力与互动 129
7.4 影响力最大化与病毒式营销 132
7.4.1 影响力最大化 132
7.4.2 其他应用 136
7.5 结论 137
8 社会网络中的专家发现算法与系统综述 143
8.1 引言 143
8.2 定义与符号 144
8.3 无图约束的专家发现 145
8.3.1 文档信息检索语言模型 145
8.3.2 专家发现语言模型 146
8.3.3 延伸阅读 147
8.4 分值传播下的专家发现 147
8.4.1 PageRank算法 147
8.4.2 HITS算法 148
8.4.3 专家分值传播 149
8.4.4 延伸阅读 150
8.5 专家团队形成 151
8.5.1 相关测度 151
8.5.2 专家团队形成 151
8.5.3 延伸阅读 154
8.6 其他相关方法 154
8.6.1 基于代理的方法 155
8.6.2 影响力最大化方法 155
8.7 专家发现系统 156
8.8 结论 157
9 社会网络中的连接预测综述 162
9.1 引言 162
9.2 背景 163
9.3 基于特征的连接预测 164
9.3.1 特征集的构建 164
9.3.2 分类模型 168
9.4 贝叶斯概率模型 172
9.4.1 基于局部概率模型的连接预测 172
9.4.2 基于网络演化的概率模型 173
9.4.3 层次概率模型 174
9.5 概率关系模型 175
9.5.1 关系贝叶斯网络 176
9.5.2 关系马尔科夫网络 176
9.6 线性代数方法 177
9.7 近期发展及未来工作 179
10 社会网络中的隐私问题综述 185
10.1 引言 185
10.2 社会网络中的隐私泄露 187
10.2.1 身份信息泄露 187
10.2.2 属性信息泄露 188
10.2.3 社会关系泄露 189
10.2.4 隶属关系泄露 190
10.3 数据发布中的隐私定义 191
10.3.1 k-匿名化 192
10.3.2 l-多样性与t-接近性 194
10.3.3 差异性隐私 194
10.4 隐私保护机制 195
10.4.1 社会网络的隐私机制 196
10.4.2 隶属网络的隐私机制 199
10.4.3 社会隶属网络的隐私机制 201
10.5 相关文献 202
10.6 结论 202
11 社会网络的可视化 206
11.1 引言 206
11.2 可视化的分类 207
11.2.1 结构可视化 208
11.2.2 语义和时间的可视化 210
11.2.3 统计可视化 211
11.3 可视化技术、交互技术以及分析技术的融合 212
11.3.1 基于本体的结构和语义过滤 213
11.3.2 基于中心性的可视化发现和探索 214
11.4 结论 216
12 社交媒体数据挖掘 221
12.1 引言 221
12.2 数据挖掘简介 222
12.3 社交媒体 222
12.4 社交媒体数据挖掘的主要动机 224
12.5 社交媒体数据挖掘方法 225
12.5.1 数据表示 225
12.5.2 数据挖掘过程 226
12.5.3 社交网站:示例 227
12.5.4 博客空间:示例 229
12.6 相关工作 231
12.6.1 人种学和网络人种学 231
12.6.2 事件地图 231
12.7 结论 232
13 社会网络文本挖掘 238
13.1 引言 238
13.2 关键词搜索 239
13.2.1 查询语义和答案排序 240
13.2.2 基于XML和关系数据的关键词搜索 241
13.2.3 基于图的关键词搜索 242
13.3 分类算法 246
13.4 聚类算法 247
13.5 异构网络中的迁移学习 249
13.6 结论 250
14 传感器与社会网络的融合 254
14.1 引言 254
14.2 传感器与社会网络:技术推动因素 256
14.3 社会网络的动态建模 257
14.4 系统设计和架构挑战 258
14.4.1 隐私保护数据采集 259
14.4.2 通用模型构造 259
14.4.3 实时决策服务 260
14.4.4 参与者招募 260
14.4.5 其他架构挑战 260
14.5 数据库表示:问题和挑战 261
14.6 隐私问题 266
14.7 传感器和社会网络:应用 267
14.7.1 Google Latitude应用 268
14.7.2 Citysense和Macrosense应用 268
14.7.3 Green GPS 269
14.7.4 Microsoft SensorMap 269
14.7.5 动物和物体跟踪应用 269
14.7.6 实时服务的参与感知 270
14.8 未来挑战和研究方向 270
15 社交媒体中的多媒体信息网络 275
15.1 引言 275
15.2 基于语义的连接:基于本体的学习 276
15.3 基于社区媒体的连接 277
15.3.1 面向社区媒体的检索系统 277
15.3.2 基于社区媒体的推荐系统 278
15.4 个人相册网络 279
15.4.1 个人相册具有以参与者为中心的特征 279
15.4.2 个人相册中的质量问题 280
15.4.3 个人相册中的时间和位置主题 280
15.4.4 个人相册中的内容重叠问题 281
15.5 地理信息网络 281
15.5.1 语义标注 282
15.5.2 地理估计 282
15.5.3 其他应用 283
15.6 推理方法 283
15.6.1 判别模型与生成模型 283
15.6.2 基于图的推理:排序、聚类和半监督学习 284
15.6.3 在线学习 285
15.7 关于商业系统和数据集讨论 286
15.8 未来发展方向探讨 288
15.8.1 基于内容的推荐和广告 288
15.8.2 通过云计算实现的多媒体信息网络 288
16 社会标注和应用综述 298
16.1 引言 298
16.1.1 与元数据生成及固定分类相关的问题 299
16.1.2 一种解决方案:大众分类 299
16.1.3 本文结构 300
16.2 标识:为什么?以及是什么? 300
16.2.1 各种用户标注动机 300
16.2.2 标识类别 301
16.2.3 分类者和描述者 302
16.2.4 标识的语义分类 302
16.2.5 基于游戏的标注 302
16.3 标识生成模型 303
16.3.1 Polya罐子生成模型 303
16.3.2 语言模型 305
16.3.3 其他影响因素 305
16.4 标注系统的设计 306
16.5 标识分析 308
16.5.1 标识分布 308
16.5.2 识别标识语义 309
16.5.3 标识Vs.关键词 310
16.6 标识可视化 311
16.6.1 用于浏览/搜索的标识云 312
16.6.2 为标识云选择标识 312
16.6.3 标识层次生成 313
16.6.4 标识云显示形式 313
16.6.5 标识演化过程可视化 313
16.6.6 受欢迎的标识云 314
16.7 标识推荐 314
16.7.1 基于标识质量 314
16.7.2 基于标识共现 315
16.7.3 基于单词、文档和标识之间的互信息 315
16.7.4 基于对象特征 316
16.8 标识应用 316
16.8.1 索引 316
16.8.2 搜索 316
16.8.3 分类生成 320
16.8.4 公共图书馆编目 320
16.8.5 聚类和分类 321
16.8.6 社会热点发现 322
16.8.7 增强浏览 322
16.9 集成 323
16.9.1 利用标识共现分析和聚类方法融合分类结果 323
16.9.2 TAGMAS:联合标注系统 324
16.9.3 不同大众分类法中的相关用户信息 324
16.10 存在的问题 325
16.10.1 垃圾标识 325
16.10.2 规范性和模糊性 325
16.10.3 其他问题 326
16.11 结论及未来发展方向 327
16.11.1 标识分析 327
16.11.2 改进的系统设计 327
16.11.3 个性化标识推荐 327
16.11.4 更多的应用 327
16.11.5 待解决的问题 328