当前位置:首页 > 工业技术
Python数据挖掘  概念、方法与实践
Python数据挖掘  概念、方法与实践

Python数据挖掘 概念、方法与实践PDF电子书下载

工业技术

  • 电子书积分:9 积分如何计算积分?
  • 作 者:(美)梅甘·斯夸尔(Megan Squire)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111565482
  • 页数:196 页
图书介绍:在本书中,你将深入许多数据挖掘中常被忽视的领域,包括关联规则挖掘、实体匹配、网络挖掘、情绪分析、命名实体识别、文本摘要、主题建模和异常检测。对于每种数据挖掘技术,我们将在比较解决每种问题所用的各种策略之前,研究目前最新的最佳实践。然后,将用来自软件工程领域的实际数据,实现示例解决方案,并学习理解和解读所得结果的方法。
《Python数据挖掘 概念、方法与实践》目录

第1章 扩展你的数据挖掘工具箱 1

1.1 什么是数据挖掘 2

1.2 如何进行数据挖掘 4

1.2.1 Fayyad等人的KDD过程 4

1.2.2 韩家炜等人的KDD过程 4

1.2.3 CRISP-DM过程 5

1.2.4 六步过程 6

1.2.5 哪一种数据挖掘方法最好 6

1.3 在数据挖掘中使用哪些技术 7

1.4 如何建立数据挖掘工作环境 9

1.5 小结 14

第2章 关联规则挖掘 16

2.1 什么是频繁项集 16

2.1.1 都市传奇“尿布与啤酒” 17

2.1.2 频繁项集挖掘基础知识 18

2.2 迈向关联规则 19

2.2.1 支持度 20

2.2.2 置信度 20

2.2.3 关联规则 21

2.2.4 包含数据的示例 21

2.2.5 附加值——修复计划中的漏洞 22

2.2.6 寻找频繁项集的方法 24

2.3 项目——发现软件项目标签中的关联规则 25

2.4 小结 38

第3章 实体匹配 39

3.1 什么是实体匹配 40

3.1.1 数据合并 42

3.1.2 匹配技术 45

3.1.3 基于属性的相似度匹配 45

3.1.4 属性匹配方法 46

3.1.5 利用不相交数据集 48

3.1.6 基于上下文的相似度匹配 48

3.1.7 基于机器学习的实体匹配 49

3.1.8 实体匹配技术的评估 50

3.2 实体匹配项目 53

3.2.1 软件项目匹配的难度 53

3.2.2 两个例子 53

3.2.3 根据项目名称匹配 55

3.2.4 根据人名匹配 55

3.2.5 根据URL匹配 55

3.2.6 按照主题和描述关键词匹配 56

3.2.7 数据集 57

3.2.8 代码 58

3.2.9 结果 63

3.3 小结 66

第4章 网络分析 68

4.1 什么是网络 68

4.2 网络计量 71

4.2.1 网络的度数 71

4.2.2 网络直径 72

4.2.3 网络中的通路、路径和迹 72

4.2.4 网络的成分 73

4.2.5 图的中心性 73

4.3 图数据的表示 76

4.3.1 邻接矩阵 76

4.3.2 边表和邻接表 77

4.3.3 图数据结构之间的差别 77

4.3.4 将数据导入图结构中 78

4.4 真实项目 84

4.4.1 探索数据 84

4.4.2 生成网络文件 89

4.4.3 以网络的形式理解数据 91

4.5 小结 107

第5章 文本情绪分析 109

5.1 什么是情绪分析 110

5.2 情绪分析基础知识 111

5.2.1 观点的结构 111

5.2.2 文档级和句子级分析 112

5.2.3 观点的重要特征 113

5.3 情绪分析算法 114

5.4 情绪挖掘应用 116

5.4.1 项目动机 117

5.4.2 数据准备 117

5.4.3 聊天消息的数据分析 120

5.4.4 电子邮件消息的数据分析 124

5.5 小结 130

第6章 文本中的命名实体识别 131

6.1 为什么寻找命名实体? 131

6.2 命名实体识别技术 134

6.3 NER系统的构建与评估 137

6.3.1 NER和部分匹配 137

6.3.2 处理部分匹配 138

6.4 命名实体识别项目 140

6.5 小结 149

第7章 自动化文本摘要 150

7.1 什么是自动化文本摘要 151

7.2 文本摘要工具 151

7.2.1 使用NTLK的简单文本摘要 152

7.2.2 使用Gensim的文本摘要 155

7.2.3 使用Sumy的文本摘要 157

7.3 小结 163

第8章 文本中的主题建模 164

8.1 什么是主题建模 164

8.2 潜在狄利克雷分配 166

8.3 Gensim主题建模 167

8.3.1 理解GensimLDA主题 169

8.3.2 理解GensimLDA的遍数 170

8.3.3 对新文档应用Gensim LDA模型 172

8.3.4 序列化Gensim LDA对象 172

8.4 用于更大项目的GensimLDA 174

8.5 小结 176

第9章 挖掘数据异常 178

9.1 什么是数据异常 178

9.1.1 缺失数据 179

9.1.2 修复缺失数据 181

9.1.3 数据错误 184

9.1.4 离群值 186

9.2 小结 194

相关图书
作者其它书籍
返回顶部