当前位置:首页 > 工业技术
Web数据分析关键技术及解决方案
Web数据分析关键技术及解决方案

Web数据分析关键技术及解决方案PDF电子书下载

工业技术

  • 电子书积分:8 积分如何计算积分?
  • 作 者:范春晓
  • 出 版 社:北京:北京邮电大学出版社
  • 出版年份:2017
  • ISBN:9787563552597
  • 页数:138 页
图书介绍:本书集中讨论网络数据分析的关键技术和应用解决方案,针对几种典型的网络应用的数据分析需求,介绍相关的前沿理论,提出并介绍具有针对性的解决方案及方法。主要应用案例包括:社交网络用户关系分析、移动社会网络的用户行为分析、基于语义的Web信息自动聚合方法、智慧校园的网络数据挖掘、基于Web公共舆情自动分析及预警方案、电商网站数据获取及分析方案等,相关理论涉及数据挖掘、推荐算法、数据建模等本书选取当前网络数据分析的热点问题,总结了实际科研工作的成果,适合高校信息、计算机等相关专业的教师、学生及研究人员阅读。
《Web数据分析关键技术及解决方案》目录

第1章 Web大数据挖掘概述 1

1.1 大数据与网络大数据 1

1.2 Web大数据应用及特点 2

1.2.1 Web大数据 2

1.2.2 Web大数据特点 3

1.3 Web挖掘及Web挖掘类型 4

1.3.1 Web挖掘及Web挖掘类型 4

1.3.2 Web内容挖掘 5

1.3.3 Web结构挖掘 6

1.3.4 Web使用挖掘 6

1.4 Web挖掘过程 7

1.4.1 Web内容挖掘过程 7

1.4.2 Web结构挖掘过程 7

1.4.3 Web使用挖掘过程 8

参考文献 10

第2章 Web数据挖掘基础 12

2.1 Web信息程序获取方式 12

2.1.1 网络爬虫 12

2.1.2 其他Web信息程序获取方式 15

2.2 Web信息数据抽取 16

2.2.1 Web网页信息抽取 16

2.2.2 自然语言文本结构化信息抽取 17

2.3 Web信息文本模型的文本特征表示 19

2.3.1 文本模型与文本特征 19

2.3.2 VSM向量空间模型 20

2.3.3 布尔模型 21

2.3.4 概率主题模型 21

2.4 模式发现常用方法 24

2.4.1 统计分析 24

2.4.2 关联分析 24

2.4.3 分类分析 25

2.4.4 聚类分析 27

参考文献 28

第3章 Web内容及结构挖掘应用案例1:基于Web公共舆情自动分析及预警 30

3.1 概述 30

3.1.1 基于Web的公共舆情 30

3.1.2 网络舆情研究现状 31

3.2 基于Web意见的舆情分析预测模型 32

3.2.1 舆情分析预测模型概述 32

3.2.2 热点舆情发现模型研究 33

3.2.3 热点舆情发展趋势预测模型 35

3.3 基于意见挖掘的热点舆情发现模型 37

3.3.1 改进的热点舆情发现模型 38

3.3.2 基于Web意见挖掘的报道特征表示 38

3.4 来源加权的舆情分析模型 43

3.4.1 舆情来源量化分析指标 43

3.4.2 Page-Rank算法拓展 44

3.4.3 构建来源加权的舆情分析模型 45

3.5 热点舆情识别 46

3.5.1 话题热度特征描述 46

3.5.2 话题热度计算函数 47

3.6 实验及评估 48

3.6.1 网络新闻数据的抓取 48

3.6.2 中文分词及文本表示 51

3.6.3 模型改进效果分析 52

3.7 C5.0和BP神经网络结合的舆情预测模型 53

3.7.1 基于C5.0的意见分类 53

3.7.2 基于BP神经网络预测模型 56

3.7.3 实验及评估 57

3.8 小结 60

参考文献 60

第4章 Web内容挖掘应用案例2:基于语义的Web信息自动聚合系统的关键技术研究 62

4.1 信息聚合及相关技术 62

4.1.1 信息聚合 62

4.1.2 信息聚合问题研究现状 63

4.1.3 简易信息聚合技术RSS 64

4.1.4 数字签名算法Simhash 65

4.2 一种基于主题的Web信息自动聚合方案 66

4.2.1 方案架构 66

4.2.2 信息获取 67

4.2.3 信息预处理 69

4.2.4 按主题聚合 72

4.3 基于标点符号及标签相似度的正文抽取方法 73

4.3.1 网页类型及结构 73

4.3.2 常用网页正文抽取方法分析 74

4.3.3 基于标点分布的网页正文抽取算法 74

4.3.4 基于标签相似度的多正文网页抽取技术 77

4.3.5 算法设计及实验 80

4.4 基于潜在语义的Web信息聚合 80

4.4.1 概率主题模型与潜在语义分析模型 81

4.4.2 LDA模型 84

4.4.3 面向Web信息的LDA模型改进方法 87

4.4.4 实验结果分析 91

4.5 本章小结 94

参考文献 94

第5章 分布式多源电商数据挖掘 96

5.1 电子商务及电商数据分析 96

5.2 电商数据分析挖掘 98

5.2.1 引言 98

5.2.2 电商数据定义 98

5.2.3 电商数据采集 101

5.2.4 数据分析挖掘 103

5.3 多源电商数据融合 114

5.3.1 引言 114

5.3.2 数据融合 114

5.3.3 多源电商数据的特点 115

5.3.4 多数据源电商数据融合总体解决方案 116

5.3.5 多数据源电商数据融合方案 117

5.3.6 多数据源电商数据融合的具体实现 119

5.3.7 实验结果与分析 120

5.4 分布式电商数据分析挖掘系统 121

5.4.1 引言 121

5.4.2 基于Hadoop的分布式电商数据分析挖掘系统 122

5.4.3 基于Hadoop平台的层次聚类 124

5.4.4 电商数据的层次聚类分析 132

参考文献 136

返回顶部