文本挖掘技术及其应用PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:谢邦昌,朱建平,李毅著
- 出 版 社:厦门:厦门大学出版社
- 出版年份:2016
- ISBN:7561559710
- 页数:152 页
第一部分 文本挖掘技术 3
第一章 绪论 3
1.1 整合文本挖掘与数据挖掘 4
1.2 基础技术 7
第二章 资料分析 15
2.1 数据分析作业 15
2.1.1 数据清洗 15
2.1.2 建立基本词汇数据库 15
2.1.3 Metadata(元数据)及非结构化文本数据的自动分类 16
2.1.4 数据聚类 17
2.1.5 关系型分析 18
2.2 基础挖掘过程 18
2.2.1 文献的树状知识分类 18
2.2.2 数据检索 19
2.2.3 主题侦测追踪 19
2.2.4 概念丛集 19
2.2.5 个人化议题式词库(增列) 19
2.2.6 动态索引词库 19
2.2.7 推论分析 19
第二部分 文本挖掘:以R软件为例 23
第三章 R软件 23
3.1 R软件简介 23
3.2 R软件的特色 23
3.3 R软件的基本安装 24
3.4 程序包安装 24
第四章 基本工具 25
4.1 基本工具 25
4.1.1 安装rJava包 25
4.1.2 安装Rwordseg包 25
4.1.3 安装tm包 26
4.1.4 安装tmcn包 26
4.1.5 安装wordcloud、ggplot2、graphics包 26
4.1.6 安装Rfacebook、Rweibo、Rtwitter包 26
4.2 社群开放平台权限申请 27
4.2.1 如何获得Facebook权限 27
4.2.2 如何获得微博权限 33
第五章 文本挖掘之爬虫 38
5.1 Rfacebook 38
5.1.1 用户发文 38
5.1.2 粉丝发文 39
5.1.3 所需R包 40
5.2 Rweibo 43
5.2.1 主题 43
5.2.2 实例说明 47
5.2.3 所需R包 48
5.3 R Twitter 51
5.3.1 关键词 51
5.3.2 所需R包 53
5.4 网页爬虫 55
5.4.1 爬一般网页文字 55
5.4.1 爬PTT网页文字 58
5.4.3 所需R包 59
5.5 SpideR 61
5.5.1 所需R包 61
5.5.2 有关爬虫时的注意事项 62
5.5.3 抓取网页数据的标准作业程序 62
5.5.4 R IDE的编码 63
5.5.5 读取文档或网页的编码 63
5.5.6 R IDE开发spideR面对编码的解决方案 64
第六章 数据预处理 65
6.1 编码处理 65
6.1.1 乱码问题 65
6.1.2 字符编码种类 65
6.2 代表性语料库、词库简介 66
6.2.1 知网http://www.keenage.com 66
6.2.2 中文词知识库小组(http://ekip.iis.sinica.edu.tw/CKIP/index.htm) 69
6.3 断词方法 69
6.4 字词处理 72
6.5 语料库建立 73
6.6 正则表达式(regular expressions) 76
第七章 资料分析 77
7.1 频率(词频) 77
7.2 DTM(TDM)matrix 78
7.2.1 DocumentTermMatrix与TermDocumentMatrix 78
7.2.2 稀疏矩阵(sparse matrix) 79
7.3 关联分析 81
7.4 聚类分析 82
7.4.1 常用的两种相似系数 82
7.4.2 常用的点间距离公式 83
7.4.3 层次式聚类法 84
7.4.4 非层次式聚类法 85
7.4.5 R聚类分析语法 85
7.5 主成分分析 86
7.5.1 主成分分析原理 86
7.5.2 主成分分析数学模型 87
7.5.3 主成分特性 88
7.5.4 R语言主成分分析语法 89
7.6 词云聚类分析 91
7.6.1 词云聚类简介 91
7.6.2 R语言词云聚类语法 91
第三部分 文本挖掘之SQL Server 2014 99
第八章 SQL Server 2014简介 99
8.1 商业智能应用程序 99
8.2 文本挖掘技术 100
第九章 文本挖掘应用 101
9.1 导入文本数据 101
9.2 建立NGArticles的词库 105
9.2.1 建立词库(Dictionary) 105
9.2.2 建立词向量 117
9.2.3 建立Train Sample和Test Sample 124
第十章 资料分析 131
10.1 串联Train Sample、Test Sample和TermVectors 131
10.2 构建数据挖掘模型(决策树、神经网络、逻辑回归) 134
10.3 图表分析 143
10.3.1 各模型的准确度图表分析 143
10.3.2 决策树图表分析 145
10.3.3 神经网络图表分析 146
第十一章 文本挖掘在实务上的应用 148
11.1 创造商机 148
11.1.1 商品卖得好 149
11.1.2 社群操作得好 150
11.1.3 危机预警 151
11.1.4 广告ROI高 152
11.2 结语 152
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《大学化学实验》李爱勤,侯学会主编 2016
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017