Python 网络数据爬取及分析从入门到精通 分析篇PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:杨秀璋,颜娜编著
- 出 版 社:北京:北京航空航天大学出版社
- 出版年份:2018
- ISBN:9787512427136
- 页数:248 页
第1章 网络数据分析概述 1
1.1 数据分析 1
1.2 相关技术 3
1.3 Anaconda开发环境 5
1.4 常用数据集 9
1.4.1 Sklearn数据集 9
1.4.2 UCI数据集 10
1.4.3 自定义爬虫数据集 11
1.4.4 其他数据集 12
1.5 本章小结 13
参考文献 14
第2章 Python数据分析常用库 15
2.1 常用库 15
2.2 NumPy 17
2.2.1 Array用法 17
2.2.2 二维数组操作 19
2.3 Pandas 21
2.3.1 读/写文件 22
2.3.2 Series 24
2.3.3 DataFrame 26
2.4 Matplotlib 26
2.4.1 基础用法 27
2.4.2 绘图简单示例 28
2.5 Sklearn 31
2.6 本章小结 32
参考文献 32
第3章 Python可视化分析 33
3.1 Matplotlib可视化分析 33
3.1.1 绘制曲线图 33
3.1.2 绘制散点图 37
3.1.3 绘制柱状图 40
3.1.4 绘制饼状图 42
3.1.5 绘制3D图形 43
3.2 Pandas读取文件可视化分析 45
3.2.1 绘制折线对比图 45
3.2.2 绘制柱状图和直方图 48
3.2.3 绘制箱图 51
3.3 ECharts可视化技术初识 53
3.4 本章小结 57
参考文献 57
第4章 Python回归分析 58
4.1 回归 58
4.1.1 什么是回归 58
4.1.2 线性回归 59
4.2 线性回归分析 60
4.2.1 LinearRegression 61
4.2.2 用线性回归预测糖尿病 63
4.3 多项式回归分析 68
4.3.1 基础概念 68
4.3.2 PolynomialFeatures 69
4.3.3 用多项式回归预测成本和利润 70
4.4 逻辑回归分析 73
4.4.1 LogisticRegression 75
4.4.2 鸢尾花数据集回归分析实例 75
4.5 本章小结 83
参考文献 83
第5章 Python聚类分析 85
5.1 聚类 85
5.1.1 算法模型 85
5.1.2 常见聚类算法 86
5.1.3 性能评估 88
5.2 K-Means 90
5.2.1 算法描述 90
5.2.2 用K-Means分析篮球数据 96
5.2.3 K-Means聚类优化 99
5.2.4 设置类簇中心 103
5.3 BIRCH 105
5.3.1 算法描述 105
5.3.2 用BIRCH分析氧化物数据 106
5.4 降维处理 110
5.4.1 PCA降维 111
5.4.2 Sklearn PCA降维 111
5.4.3 PCA降维实例 113
5.5 本章小结 117
参考文献 118
第6章 Python分类分析 119
6.1 分类 119
6.1.1 分类模型 119
6.1.2 常见分类算法 120
6.1.3 回归、聚类和分类的区别 122
6.1.4 性能评估 123
6.2 决策树 123
6.2.1 算法实例描述 123
6.2.2 DTC算法 125
6.2.3 用决策树分析鸢尾花 126
6.2.4 数据集划分及分类评估 128
6.2.5 区域划分对比 132
6.3 KNN分类算法 136
6.3.1 算法实例描述 136
6.3.2 KNeighborsClassifier 138
6.3.3 用KNN分类算法分析红酒类型 139
6.4 SVM分类算法 147
6.4.1 SVM分类算法的基础知识 147
6.4.2 用SVM分类算法分析红酒数据 148
6.4.3 用优化SVM分类算法分析红酒数据集 151
6.5 本章小结 154
参考文献 154
第7章 Python关联规则挖掘分析 156
7.1 基本概念 156
7.1.1 关联规则 156
7.1.2 置信度与支持度 157
7.1.3 频繁项集 158
7.2 Apriori算法 159
7.3 Apriori算法的实现 163
7.4 本章小结 167
参考文献 167
第8章 Python数据预处理及文本聚类 168
8.1 数据预处理概述 168
8.2 中文分词 170
8.2.1 中文分词技术 170
8.2.2 Jieba中文分词工具 171
8.3 数据清洗 175
8.3.1 概述 175
8.3.2 中文语料清洗 176
8.4 特征提取及向量空间模型 179
8.4.1 特征规约 179
8.4.2 向量空间模型 181
8.4.3 余弦相似度计算 182
8.5 权重计算 184
8.5.1 常用权重计算方法 184
8.5.2 TF-IDF 185
8.5.3 用Sklearn计算TF-IDF 186
8.6 文本聚类 188
8.7 本章小结 192
参考文献 192
第9章 Python词云热点与主题分布分析 193
9.1 词云 193
9.2 WordCloud的安装及基本用法 194
9.2.1 WordCloud的安装 194
9.2.2 WordCloud的基本用法 195
9.3 LDA 203
9.3.1 LDA的安装过程 203
9.3.2 LDA的基本用法及实例 204
9.4 本章小结 214
参考文献 214
第10章 复杂网络与基于数据库技术的分析 215
10.1 复杂网络 215
10.1.1 复杂网络和知识图谱 215
10.1.2 NetworkX 217
10.1.3 用复杂网络分析学生关系网 219
10.2 基于数据库技术的数据分析 224
10.2.1 数据准备 224
10.2.2 基于数据库技术的可视化分析 225
10.2.3 基于数据库技术的可视化对比 232
10.3 基于数据库技术的博客行为分析 234
10.3.1 幂率分布 234
10.3.2 用幂率分布分析博客数据集 235
10.4 本章小结 245
参考文献 245
套书后记 246
致谢 248
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《HTML5从入门到精通 第3版》(中国)明日科技 2019
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《Python3从入门到实战》董洪伟 2019
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019