Web数据分析关键技术及解决方案PDF电子书下载
- 电子书积分:8 积分如何计算积分?
- 作 者:范春晓
- 出 版 社:北京:北京邮电大学出版社
- 出版年份:2017
- ISBN:9787563552597
- 页数:138 页
第1章 Web大数据挖掘概述 1
1.1 大数据与网络大数据 1
1.2 Web大数据应用及特点 2
1.2.1 Web大数据 2
1.2.2 Web大数据特点 3
1.3 Web挖掘及Web挖掘类型 4
1.3.1 Web挖掘及Web挖掘类型 4
1.3.2 Web内容挖掘 5
1.3.3 Web结构挖掘 6
1.3.4 Web使用挖掘 6
1.4 Web挖掘过程 7
1.4.1 Web内容挖掘过程 7
1.4.2 Web结构挖掘过程 7
1.4.3 Web使用挖掘过程 8
参考文献 10
第2章 Web数据挖掘基础 12
2.1 Web信息程序获取方式 12
2.1.1 网络爬虫 12
2.1.2 其他Web信息程序获取方式 15
2.2 Web信息数据抽取 16
2.2.1 Web网页信息抽取 16
2.2.2 自然语言文本结构化信息抽取 17
2.3 Web信息文本模型的文本特征表示 19
2.3.1 文本模型与文本特征 19
2.3.2 VSM向量空间模型 20
2.3.3 布尔模型 21
2.3.4 概率主题模型 21
2.4 模式发现常用方法 24
2.4.1 统计分析 24
2.4.2 关联分析 24
2.4.3 分类分析 25
2.4.4 聚类分析 27
参考文献 28
第3章 Web内容及结构挖掘应用案例1:基于Web公共舆情自动分析及预警 30
3.1 概述 30
3.1.1 基于Web的公共舆情 30
3.1.2 网络舆情研究现状 31
3.2 基于Web意见的舆情分析预测模型 32
3.2.1 舆情分析预测模型概述 32
3.2.2 热点舆情发现模型研究 33
3.2.3 热点舆情发展趋势预测模型 35
3.3 基于意见挖掘的热点舆情发现模型 37
3.3.1 改进的热点舆情发现模型 38
3.3.2 基于Web意见挖掘的报道特征表示 38
3.4 来源加权的舆情分析模型 43
3.4.1 舆情来源量化分析指标 43
3.4.2 Page-Rank算法拓展 44
3.4.3 构建来源加权的舆情分析模型 45
3.5 热点舆情识别 46
3.5.1 话题热度特征描述 46
3.5.2 话题热度计算函数 47
3.6 实验及评估 48
3.6.1 网络新闻数据的抓取 48
3.6.2 中文分词及文本表示 51
3.6.3 模型改进效果分析 52
3.7 C5.0和BP神经网络结合的舆情预测模型 53
3.7.1 基于C5.0的意见分类 53
3.7.2 基于BP神经网络预测模型 56
3.7.3 实验及评估 57
3.8 小结 60
参考文献 60
第4章 Web内容挖掘应用案例2:基于语义的Web信息自动聚合系统的关键技术研究 62
4.1 信息聚合及相关技术 62
4.1.1 信息聚合 62
4.1.2 信息聚合问题研究现状 63
4.1.3 简易信息聚合技术RSS 64
4.1.4 数字签名算法Simhash 65
4.2 一种基于主题的Web信息自动聚合方案 66
4.2.1 方案架构 66
4.2.2 信息获取 67
4.2.3 信息预处理 69
4.2.4 按主题聚合 72
4.3 基于标点符号及标签相似度的正文抽取方法 73
4.3.1 网页类型及结构 73
4.3.2 常用网页正文抽取方法分析 74
4.3.3 基于标点分布的网页正文抽取算法 74
4.3.4 基于标签相似度的多正文网页抽取技术 77
4.3.5 算法设计及实验 80
4.4 基于潜在语义的Web信息聚合 80
4.4.1 概率主题模型与潜在语义分析模型 81
4.4.2 LDA模型 84
4.4.3 面向Web信息的LDA模型改进方法 87
4.4.4 实验结果分析 91
4.5 本章小结 94
参考文献 94
第5章 分布式多源电商数据挖掘 96
5.1 电子商务及电商数据分析 96
5.2 电商数据分析挖掘 98
5.2.1 引言 98
5.2.2 电商数据定义 98
5.2.3 电商数据采集 101
5.2.4 数据分析挖掘 103
5.3 多源电商数据融合 114
5.3.1 引言 114
5.3.2 数据融合 114
5.3.3 多源电商数据的特点 115
5.3.4 多数据源电商数据融合总体解决方案 116
5.3.5 多数据源电商数据融合方案 117
5.3.6 多数据源电商数据融合的具体实现 119
5.3.7 实验结果与分析 120
5.4 分布式电商数据分析挖掘系统 121
5.4.1 引言 121
5.4.2 基于Hadoop的分布式电商数据分析挖掘系统 122
5.4.3 基于Hadoop平台的层次聚类 124
5.4.4 电商数据的层次聚类分析 132
参考文献 136
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《本草经解彩色药图》云雪林,杨碧仙主编 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《幼儿园创意美术主题活动方案 下学期》王燕媚 2017
- 《豆瓣街的谜案》范小青 2020
- 《钢铁烧结烟气多污染物过程控制原理与新技术》甘敏,范晓慧著 2019
- 《拓展视野 交流文化 新编大学英语阅读教程 3 双色版》黄振羽,范丽娜 2018
- 《锄月》范小青著 2020
- 《最后之战》(荷)达安·赫马·范·福斯(Daan Heerma Van Voss)著 2019
- 《知识产权与商业》罗德尼?D.莱德(Rodney?D.Ryder),阿什文?马德范(AshwinMadhavan 2019
- 《长棋》范小青 2020
- 《折耳兔瑞奇快乐成长图画书 瑞奇有棵圣诞树》(比)吉多·范·西纳顿译 2018
- 《夜晚的微光》范晓波著 2019
- 《迈尔斯教授讲世界历史 希腊史》(美)菲利普·范·内斯·迈尔斯著;袁建伟译 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019