第1章 引言 1
1.1 互联网信息 1
1.2 互联网信息监测 4
1.3 手工监测的不足 5
1.4 互联网信息监测系统 6
1.5 全文组织结构 8
第2章 常见企业用户需求 10
2.1 业务功能需求 11
2.1.1 媒体监测 11
2.1.2 信息推送 15
2.1.3 咨询分析 16
2.1.4 规则管理 18
2.1.5 用户权限配置 20
2.2 非功能性需求 20
2.2.1 应用安全性 21
2.2.2 数据保存要求 21
第3章 系统设计 23
3.1 系统结构 24
3.2 分布式网络信息采集子系统 27
3.2.1 网络爬虫 28
3.2.2 新闻爬虫 31
3.2.3 论坛爬虫 32
3.2.4 元搜索爬虫 33
3.3 海量信息管理与检索子系统 34
3.3.1 系统架构 35
3.3.2 大数据动态管理子系统 37
3.3.3 信息抽取与关联子系统 37
3.3.4 数据挖掘与分析子系统 37
3.3.5 公共数据网关与API接口 38
3.3.6 交互式Web管理接口 38
3.3.7 数据集成开发规范 38
3.4 多维分析与机器学习子系统 40
3.5 权限与接口管理子系统 41
3.6 交互子系统 43
3.7 系统部署方案 46
第4章 数据处理流程 52
4.1 结构化解析 52
4.2 多语言支持 56
4.3 网页正文提取 56
4.4 网页信息抽取 57
4.5 命名实体识别 59
4.6 数据规模估算 60
第5章 关键技术解析 65
5.1 文本聚类 65
5.2 文本分类 67
5.3 高可用性 68
5.4 全文检索 69
5.5 数据模型NoSQL 71
5.6 词语统计与分析 73
5.7 元搜索 74
5.8 网络协议Robots 74
第6章 相关厂商和产品 77
6.1 中科新天 77
6.1.1 产品功能 77
6.1.2 系统特点 78
6.2 谷尼国际 79
6.2.1 产品功能 80
6.2.2 系统特点 80
6.3 方正智思 81
6.3.1 产品功能 81
6.3.2 系统特点 81
6.4 北京本果 82
6.4.1 产品功能 83
6.4.2 系统特点 83
6.5 维思比 84
6.5.1 产品功能 84
6.5.2 系统特点 85
6.6 乐思软件 86
6.6.1 产品功能 86
6.6.2 系统特点 87
6.7 中科点击 88
6.7.1 产品功能 88
6.7.2 系统特点 89
第7章 相关开源软件 90
7.1 全文索引框架Apache Lucene 90
7.2 搜索引擎Apache Nutch 91
7.3 全文检索平台Apache Solr 92
7.4 分布式计算基础平台Apache Hadoop 92
7.5 应用服务器Apache Tomcat 93
7.6 数据库服务器MySQL 94
7.7 中文分词工具IK Analyzer 95
7.8 消息中间件Apache ActiveMQ 96
第8章 总结 97