预测性文本挖掘基础PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)韦斯,(美)张潼,(澳)因杜尔亚著;赵仲孟,侯迪译
- 出 版 社:西安:西安交通大学出版社
- 出版年份:2012
- ISBN:9787560544274
- 页数:234 页
第1章 文本挖掘概述 1
1.1 文本挖掘有什么特别之处? 1
1.1.1 结构化或非结构化数据? 2
1.1.2 文本数据是否不同于数值数据? 3
1.2 文本挖掘可以解决什么类型的问题? 5
1.3 文本分类 6
1.4 信息检索 7
1.5 文档聚类与组织 8
1.6 信息提取 9
1.7 预测与评估 10
1.8 下一章内容 10
1.9 小结 11
1.10 历史与文献评述 11
1.11 问题与练习 12
第2章 从文本信息到数值向量 13
2.1 文档收集 13
2.2 文档标准化 15
2.3 标记化 17
2.4 词形转化 20
2.4.1 词干变形 20
2.4.2 化词干为词根 21
2.5 预测向量生成 22
2.5.1 多词特征 28
2.5.2 正确答案的标签 30
2.5.3 通过属性分级选择特征 31
2.6 语句边界确定 32
2.7 词性标签化 33
2.8 词义消歧 35
2.9 短语识别 35
2.10 命名实体识别 36
2.11 语法分析 36
2.12 特征生成 38
2.13 小结 39
2.14 历史与文献评述 40
2.15 课后练习 42
第3章 用文本进行预测 43
3.1 识别文档符合模式 45
3.2 需要多少文档才可以满足预测需求? 47
3.3 文档分类 48
3.4 从文本中学习预测 49
3.4.1 相似性与最近邻法 50
3.4.2 文档相似性 51
3.4.3 决策规则 53
3.4.4 决策树 59
3.4.5 概率估计 61
3.4.6 线性评分方法 63
3.5 性能评估 72
3.5.1 当前与未来的性能估计 72
3.5.2 从学习方法中获取最大收益 74
3.6 应用 75
3.7 小结 75
3.8 历史与文献评述 76
3.9 问题与练习 78
第4章 信息检索和文本挖掘 79
4.1 信息检索是文本挖掘的一种形式吗? 79
4.2 关键字搜索 80
4.3 最近邻法 81
4.4 度量相似度 82
4.4.1 相同单词计数 82
4.4.2 单词计数和奖励 83
4.4.3 余弦相似度 84
4.5 基于Web的文档搜索 85
4.5.1 链接分析 86
4.6 文档匹配 90
4.7 反向列表 90
4.8 性能评估 93
4.9 小结 94
4.10 历史与文献评述 94
4.11 问题与练习 95
第5章 文档集的结构发现 96
5.1 基于相似性的文档聚类 98
5.2 复合文档的相似度 99
5.2.1 k-means聚类 101
5.2.2 分层聚类 105
5.2.3 EM算法 107
5.3 聚类标记有什么含义? 111
5.4 应用 113
5.5 性能评价 114
5.6 小结 116
5.7 历史与文献评述 116
5.8 问题与练习 118
第6章 在文档中查询信息 119
6.1 信息提取的目标 119
6.2 发现文本模式和实体 122
6.2.1 实体提取作为序列标签 122
6.2.2 标签预测作为分类 123
6.2.3 最大熵方法 125
6.2.4 语言特征和编码 130
6.2.5 局部序列预测模型 132
6.2.6 全局序列预测模型 135
6.3 共指和关系提取 137
6.3.1 共指消解 137
6.3.2 关系提取 139
6.4 模板填充和数据库构建 140
6.5 应用 141
6.5.1 信息检索 141
6.5.2 商业化提取系统 142
6.5.3 犯罪学 143
6.5.4 情报工作 143
6.6 总结 145
6.7 历史与文献评述 145
6.8 问题与练习 147
第7章 面向预测的数据源:数据库、混杂数据与Web 148
7.1 数据的理想化模型 148
7.1.1 预测的理想化数据 148
7.1.2 理想的文本数据与非结构化数据 149
7.1.3 混杂数据与混合数据 150
7.2 实际数据源 151
7.3 原型化实例 153
7.3.1 基于Web的电子表格数据 153
7.3.2 基于Web的XML数据 154
7.3.3 观点数据与情绪分析 157
7.4 混杂数据实例:独立来源的数值数据与文本数据 159
7.5 采用标准表格格式的混合数据 161
7.6 总结 163
7.7 历史与文献评述 163
7.8 问题与练习 164
第8章 实例分析 165
8.1 互联网市场调研 165
8.1.1 问题描述 165
8.1.2 解决概览 166
8.1.3 方法与过程 167
8.1.4 系统部署 168
8.2 面向数字图书馆的轻型文档匹配 169
8.2.1 问题描述 169
8.2.2 解决概览 170
8.2.3 方法与过程 171
8.2.4 系统部署 172
8.3 生成帮助桌面应用的模本范例 173
8.3.1 问题描述 173
8.3.2 解决概览 174
8.3.3 方法与过程 174
8.3.4 系统部署 176
8.4 新闻文章主题指定 176
8.4.1 问题描述 176
8.4.2 解决概览 177
8.4.3 方法与过程 178
8.4.4 系统部署 181
8.5 邮件过滤 181
8.5.1 问题描述 181
8.5.2 解决概览 182
8.5.3 方法与过程 183
8.5.4 系统部署 184
8.6 搜索引擎 185
8.6.1 问题描述 185
8.6.2 解决概览 185
8.6.3 方法与过程 186
8.6.4 系统部署 187
8.7 文档中命名实体提取 188
8.7.1 问题描述 188
8.7.2 解决概览 189
8.7.3 方法与过程 189
8.7.4 系统部署 191
8.8 个性化报纸 192
8.8.1 问题描述 192
8.8.2 解决概览 193
8.8.3 方法与过程 193
8.8.4 系统部署 194
8.9 总结 195
8.10 历史与文献评述 195
8.11 问题与练习 196
第9章 新研究方向 197
9.1 摘要 197
9.2 主动学习 200
9.3 使用未标记的数据学习 202
9.4 收集文档样本的不同途径 202
9.4.1 文档集合与投票方法 203
9.4.2 在线学习 204
9.4.3 代价敏感学习 206
9.4.4 不稳定样本与罕见事件 207
9.5 分布式文本挖掘 207
9.6 学习排序 209
9.7 问答系统 210
9.8 总结 212
9.9 历史与文献评述 212
9.10 问题与练习 214
附录A 软件说明 215
A.1 软件概要 215
A.2 系统需求 216
A.3 下载说明 216
参考文献 217
作者索引 225
主题索引 229
- 《市政工程基础》杨岚编著 2009
- 《零基础学会素描》王金著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《花时间 我的第一堂花艺课 插花基础技法篇》(日)花时间编辑部编;陈洁责编;冯莹莹译 2020
- 《Photoshop CC 2018基础教程》温培利,付华编著 2019
- 《看视频零基础学英语口语》宋德伟 2019
- 《胃癌基础病理》(日)塚本彻哉编者;宫健,刘石译者 2019
- 《高校转型发展系列教材 素描基础与设计》施猛责任编辑;(中国)魏伏一,徐红 2019
- 《基础乐理》牛丽君 2019
- 《断陷湖盆比较沉积学与油气储层》赵永胜等著 1996
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《情报学 服务国家安全与发展的现代情报理论》赵冰峰著 2018
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020