文本挖掘中若干关键问题研究PDF电子书下载
- 电子书积分:8 积分如何计算积分?
- 作 者:陆旭著
- 出 版 社:合肥:中国科学技术大学出版社
- 出版年份:2008
- ISBN:9787312022807
- 页数:118 页
第1章 导论 1
1.1 研究背景 1
1.2 文本分类综述 2
1.3 本书的内容结构 10
1.4 本书的创新工作 12
第2章 文本分类概述 13
2.1 文本分类的数学定义 13
2.2 文本分类任务的特点 13
2.3 文本分类系统的组成 14
2.4 文档预处理 16
2.5 文档的表示 19
2.6 常用文本分类模型 23
2.7 文本分类器学习、测试和评价 27
第3章 偏最小二乘回归方法的基本理论 30
3.1 偏最小二乘回归的发展历史 30
3.2 偏最小二乘回归的基本原理 31
3.3 偏最小二乘回归的基本思想 32
3.4 数学原理 32
3.5 偏最小二乘回归的理论算法 33
3.6 成分数的确定 36
第4章 基于变量投影重要性指标的特征选择方法研究 38
4.1 维数约简技术 38
4.2 符号约定 39
4.3 常用的特征选择方法 39
4.4 常用的特征抽取方法 42
4.5 基于变量投影重要性指标的特征选择方法 44
4.6 实验结果和分析 47
第5章 偏最小二乘Logistic文本分类模型研究 57
5.1 Logistic回归模型 57
5.2 偏最小二乘Logistic回归模型 63
5.3 偏最小二乘Logistic文本分类模型 65
5.4 实验结果和分析 67
第6章 GHTC层次文本分类模型研究 76
6.1 层次分类概述 77
6.2 层次特征选择 79
6.3 GHTC层次文本分类模型 80
6.4 实验结果和分析 84
第7章 总结与展望 93
7.1 总结 93
7.2 研究展望 94
附录1 REUTERS-21578前10个常见类和前10个稀有类的前20个特征VIP值 96
附录2 复旦文本分类语料库部分类别的前20个特征VIP值 100
附录3 OHSUMED语料库层次结构 102
附录4 20 Newsgroups语料库各节点各特征维数的微平均F1值和宏平均F1值变化情况 106
参考文献 107
后记 118
- 《红色旅游的社会效应研究》吴春焕著 2019
- 《汉语词汇知识与习得研究》邢红兵主编 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《东北民歌文化研究及艺术探析》(中国)杨清波 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《强制执行前沿与热点问题》陈兴责编;乔宇 2020
- 《《国语》和《战国策》词汇比较研究》陈长书著 2017
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《大地文章》陈世旭著 2019
- 《猪解剖学与组织学彩色图谱》陈耀星,王子旭著 2018
- 《燃料电池汽车动力系统分布式测试数据传输研究=DATA TRANSMISSION ANALYSIS OF DISTRIBUTED TEST PLATFORM FOR FUEL CELL》牛文旭著 2020
- 《云环境下面向多用户的信任决策技术》吴旭著 2020
- 《张之洞中体西用教育观》孟旭著 2019
- 《新时代中国共产党的历史使命》张树军,闫茂旭著 2018
- 《20世纪中国图书馆学文库 16 民众图书馆学》徐旭著 2013
- 《黏土捏塑糕饼超简单》陈薇旭著 2012
- 《大型挠性结构分散化振动控制 理论与方法 第3版》李东旭著 2013
- 《“五彩石”活动实务 心理、教育与文化建设》陈正权,肖旭著 2013
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中国陈设艺术史》赵囡囡著 2019