Python数据挖掘 概念、方法与实践PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:(美)梅甘·斯夸尔(Megan Squire)著
- 出 版 社:北京:机械工业出版社
- 出版年份:2017
- ISBN:9787111565482
- 页数:196 页
第1章 扩展你的数据挖掘工具箱 1
1.1 什么是数据挖掘 2
1.2 如何进行数据挖掘 4
1.2.1 Fayyad等人的KDD过程 4
1.2.2 韩家炜等人的KDD过程 4
1.2.3 CRISP-DM过程 5
1.2.4 六步过程 6
1.2.5 哪一种数据挖掘方法最好 6
1.3 在数据挖掘中使用哪些技术 7
1.4 如何建立数据挖掘工作环境 9
1.5 小结 14
第2章 关联规则挖掘 16
2.1 什么是频繁项集 16
2.1.1 都市传奇“尿布与啤酒” 17
2.1.2 频繁项集挖掘基础知识 18
2.2 迈向关联规则 19
2.2.1 支持度 20
2.2.2 置信度 20
2.2.3 关联规则 21
2.2.4 包含数据的示例 21
2.2.5 附加值——修复计划中的漏洞 22
2.2.6 寻找频繁项集的方法 24
2.3 项目——发现软件项目标签中的关联规则 25
2.4 小结 38
第3章 实体匹配 39
3.1 什么是实体匹配 40
3.1.1 数据合并 42
3.1.2 匹配技术 45
3.1.3 基于属性的相似度匹配 45
3.1.4 属性匹配方法 46
3.1.5 利用不相交数据集 48
3.1.6 基于上下文的相似度匹配 48
3.1.7 基于机器学习的实体匹配 49
3.1.8 实体匹配技术的评估 50
3.2 实体匹配项目 53
3.2.1 软件项目匹配的难度 53
3.2.2 两个例子 53
3.2.3 根据项目名称匹配 55
3.2.4 根据人名匹配 55
3.2.5 根据URL匹配 55
3.2.6 按照主题和描述关键词匹配 56
3.2.7 数据集 57
3.2.8 代码 58
3.2.9 结果 63
3.3 小结 66
第4章 网络分析 68
4.1 什么是网络 68
4.2 网络计量 71
4.2.1 网络的度数 71
4.2.2 网络直径 72
4.2.3 网络中的通路、路径和迹 72
4.2.4 网络的成分 73
4.2.5 图的中心性 73
4.3 图数据的表示 76
4.3.1 邻接矩阵 76
4.3.2 边表和邻接表 77
4.3.3 图数据结构之间的差别 77
4.3.4 将数据导入图结构中 78
4.4 真实项目 84
4.4.1 探索数据 84
4.4.2 生成网络文件 89
4.4.3 以网络的形式理解数据 91
4.5 小结 107
第5章 文本情绪分析 109
5.1 什么是情绪分析 110
5.2 情绪分析基础知识 111
5.2.1 观点的结构 111
5.2.2 文档级和句子级分析 112
5.2.3 观点的重要特征 113
5.3 情绪分析算法 114
5.4 情绪挖掘应用 116
5.4.1 项目动机 117
5.4.2 数据准备 117
5.4.3 聊天消息的数据分析 120
5.4.4 电子邮件消息的数据分析 124
5.5 小结 130
第6章 文本中的命名实体识别 131
6.1 为什么寻找命名实体? 131
6.2 命名实体识别技术 134
6.3 NER系统的构建与评估 137
6.3.1 NER和部分匹配 137
6.3.2 处理部分匹配 138
6.4 命名实体识别项目 140
6.5 小结 149
第7章 自动化文本摘要 150
7.1 什么是自动化文本摘要 151
7.2 文本摘要工具 151
7.2.1 使用NTLK的简单文本摘要 152
7.2.2 使用Gensim的文本摘要 155
7.2.3 使用Sumy的文本摘要 157
7.3 小结 163
第8章 文本中的主题建模 164
8.1 什么是主题建模 164
8.2 潜在狄利克雷分配 166
8.3 Gensim主题建模 167
8.3.1 理解GensimLDA主题 169
8.3.2 理解GensimLDA的遍数 170
8.3.3 对新文档应用Gensim LDA模型 172
8.3.4 序列化Gensim LDA对象 172
8.4 用于更大项目的GensimLDA 174
8.5 小结 176
第9章 挖掘数据异常 178
9.1 什么是数据异常 178
9.1.1 缺失数据 179
9.1.2 修复缺失数据 181
9.1.3 数据错误 184
9.1.4 离群值 186
9.2 小结 194
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《语文教育教学实践探索》陈德收 2018
- 《彼得·布鲁克导演实践研究》邓小玲著 2019
- 《反思性实践》胡红梅, 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《高含硫气藏开发腐蚀控制技术与实践》唐永帆,张强 2018
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《环境影响评价公众参与理论与实践研究》樊春燕主编 2019
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《剑桥国际英语写作教程 段落写作》(美)吉尔·辛格尔顿(Jill Shingleton)编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019