基于文本特征计算的信息分析方法PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:许鑫著
- 出 版 社:上海:上海科学技术文献出版社
- 出版年份:2015
- ISBN:9787543968356
- 页数:236 页
绪论 1
第1章 信息分析方法概述 3
1.1 定性分析与定量分析 3
1.1.1 定性研究方法 3
1.1.2 定量研究方法 4
1.1.3 定性与定量相结合 5
1.2 常用信息分析方法 5
1.3 文本挖掘方法 10
1.3.1 文本挖掘的一般过程 11
1.3.2 人文社科研究中的应用 13
1.3.3 常用的文本挖掘工具 14
1.3.4 文本挖掘方法的局限性 17
1.4 大数据时代的信息分析 18
1.4.1 大数据及其特点 18
1.4.2 大数据信息分析 18
1.4.3 大数据分析技术 19
1.4.4 大数据分析应用 20
第2章 基于文本特征计算的信息分析框架 23
2.1 何谓文本特征 23
2.2 基于文本特征的信息分析 25
2.2.1 无特征词表的文本信息分析 25
2.2.2 主题词表作为特征词的文本信息分析 26
2.2.3 标签作为特征词的文本信息分析 30
2.3 文本特征计算与文本挖掘 31
2.4 基于文本特征计算的信息分析特点 32
2.5 基于文本特征计算的信息分析过程 33
第3章 确认问题及设计方案 35
3.1 问题的准确描述 35
3.2 明确文本信息分析需求 36
3.3 选取信息分析的文本对象 37
3.4 设计文本特征的分析框架 38
3.5 形成并确认信息分析方案 38
第4章 文本数据的获取 39
4.1 文本数据类型 39
4.2 基于互联网的数字化文本 39
4.2.1 网络信息资源 40
4.2.2 网络信息资源的分类 41
4.2.3 网络中的数字化文本 43
4.3 Web文本采集策略 44
4.3.1 确定采集范围 44
4.3.2 选择采集方式 45
4.3.3 常用采集技术 46
4.3.4 采集的防屏蔽策略 49
4.3.5 网页采集去重策略 50
4.4 Web采集架构及常用工具 51
4.5 互联网信息采集实例 55
第5章 文本特征的选取 58
5.1 网络文本预处理 58
5.1.1 网页正文抽取 58
5.1.2 中文分词 60
5.1.3 词性标注 64
5.1.4 停用词过滤 66
5.2 特征词提取 73
5.2.1 基于主题词表的特征词提取 74
5.2.2 基于德尔菲法的特征词提取 75
5.2.3 基于词频统计的特征词提取 76
5.2.4 基于文档频度DF的特征词提取 77
5.2.5 基于TF-IDF方法的特征词提取 78
5.2.6 基于信息增益IG的特征词提取 79
5.2.7 基于互信息MI的特征词提取 80
5.2.8 基于λ2统计量的特征词提取 81
5.2.9 其他自动提取方法及其比较 82
5.3 影响特征词权重的因素分析 84
5.4 计算特征的选择与词表构建 85
第6章 文本特征计算及分析 87
6.1 词频统计与分析 87
6.1.1 相关探讨 87
6.1.2 基于网络新闻的词频分析实例 89
6.1.3 基于微博文本的词频分析实例 92
6.1.4 基于多源文本的词频分析实例 94
6.2 时空间分布分析 96
6.2.1 相关探讨 96
6.2.2 基于时间分布的分析实例 97
6.2.3 基于空间分布的分析实例 98
6.3 共现分析 100
6.3.1 相关探讨 100
6.3.2 基于论文题录信息共现的分析实例 102
6.3.3 基于游记内容景区共现的分析实例 105
6.4 文本分类 111
6.4.1 相关探讨 111
6.4.2 常见的分类算法 113
6.4.3 上海世博会网络信息多维分类实例 116
6.5 文本聚类 119
6.5.1 相关探讨 119
6.5.2 常见的聚类算法 121
6.5.3 文本聚类用于舆情热点发现的实例 125
6.5.4 基于文本聚类的热点事件演变实例 128
6.6 特征关联分析 132
6.6.1 相关探讨 132
6.6.2 关联规则算法在文本分析中的改进 133
6.6.3 上海世博会场馆与赞助商的关联分析实例 135
6.6.4 基于两类Web文本的关联与交叉分析 140
6.7 社会网络分析 146
6.7.1 相关探讨 146
6.7.2 常用的软件工具 147
6.7.3 基于文献题录信息的社会网络分析 148
6.7.4 基于网页链接关系的社会网络分析 151
6.7.5 基于网页内容特征的社会网络分析 156
6.8 文本倾向性分析 158
6.8.1 情感分析相关研究 158
6.8.2 文本倾向性分析研究 162
6.8.3 一种文本倾向性分析方法 163
6.8.4 基于上述方法的实例分析 168
6.9 其他技术的应用概述 172
6.9.1 信息抽取及应用 172
6.9.2 可视化技术应用 174
6.9.3 本体技术的应用 176
第7章 基于WordScore的区域合作交流政策价值评价 178
7.1 政策价值与政策价值评价 178
7.1.1 政策价值 178
7.1.2 政策价值评价模型与方法 178
7.1.3 WordScore政策文本分析方法 179
7.2 国内外区域合作交流政策研究 180
7.3 区域合作交流政策价值评价模型构建 181
7.3.1 区域合作交流政策价值分类体系 181
7.3.2 区域合作交流政策价值模型构建 182
7.4 沪浙两地十二五期间区域合作交流政策的比较 184
7.5 篇章分析领域应用的探讨 185
7.5.1 政策倾向性权值设定问题 185
7.5.2 政策价值性的进一步解读 190
7.5.3 政治法律领域的文本分析 191
第8章 基于文本特征分析的古镇旅游形象感知研究 193
8.1 游客感知研究综述 193
8.2 研究对象与数据采集 196
8.3 朱家角的游客感知形象分析 197
8.3.1 高频词分析 197
8.3.2 不同类型的感知形象分析 198
8.3.3 感知形象的长尾现象分析 199
8.4 结论与讨论 201
第9章 基于网络搜索数据的金融危机传导实证分析 202
9.1 网络搜索的相关研究 202
9.2 一个事件分析的框架 203
9.3 金融危机事件静态词表的构建 204
9.3.1 事件信息表征的分类 204
9.3.2 初始样本数据的选取 205
9.3.3 采集策略与采集结果 205
9.3.4 样本数据的处理 206
9.3.5 分类词表的构建 209
9.4 基于搜索数据的动态演化分析 210
9.4.1 基于词表的搜索数据采集与整理 210
9.4.2 基于时间维度的事件动态演化分析 210
9.4.3 基于空间维度的事件动态演化分析 213
9.5 金融危机事件的传导实证分析 214
9.5.1 金融危机网络搜索的中美整体数据相关性分析 215
9.5.2 金融危机爆发前后的中美搜索数据相关性分析 216
9.5.3 表征金融危机三个类别搜索数据的相关性分析 216
9.6 基于网络搜索数据的金融危机传导应对策略 217
附录 218
参考文献 220
后记 236
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《分析化学》陈怀侠主编 2019
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《计算机辅助平面设计》吴轶博主编 2019
- 《基于地质雷达信号波的土壤重金属污染探测方法研究》赵贵章 2019
- 《计算机组成原理解题参考 第7版》张基温 2017
- 《第一性原理方法及应用》李青坤著 2019
- 《计算机自适应英语语用能力测试系统设计与效度验证 以TEM4词汇与语法题为例》张一鑫著 2019
- 《高浓度含氮有机废水生物处理新技术》周鑫著 2019
- 《Web前端性能优化》陈铎鑫著 2020
- 《画家与魔鬼》吴礼鑫著 2013
- 《山海经 绝美水墨画卷》沈鑫著;沈鑫绘 2019
- 《迷宫中的灯塔 20世纪上半叶英国文学场中的弗吉尼亚·伍尔夫》胡英,许静雯,杜亚鑫著 2019
- 《三侠剑 5》张杰鑫著 1996
- 《三侠剑 11》张杰鑫著 1996
- 《三侠剑 6》张杰鑫著 1996
- 《三侠剑 10》张杰鑫著 1996
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《近代世界史文献丛编 19》王强主编 2017
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019