第1章 感知数据 1
1.0了解数据科学项目 1
1.1文件中的数据 3
1.1.1 CSV文件 3
1.1.2 Excel文件 9
1.1.3图像文件 15
1.2数据库中的数据 19
1.3网页上的数据 29
1.4来自API的数据 39
第2章 数据清理 44
2.0基本概念 45
2.1转化数据类型 46
2.2处理重复数据 54
2.3处理缺失数据 57
2.3.1检查缺失数据 58
2.3.2用指定值填补 63
2.3.3根据规律填补 69
2.4处理离群数据 76
第3章 特征变换 83
3.0特征的类型 84
3.1特征数值化 85
3.2特征二值化 88
3.3 OneHot编码 93
3.4数据变换 98
3.5特征离散化 104
3.5.1无监督离散化 104
3.5.2有监督离散化 110
3.6数据规范化 113
第4章 特征选择 124
4.0特征选择简述 124
4.1封装器法 127
4.1.1循序特征选择 127
4.1.2穷举特征选择 135
4.1.3递归特征消除 140
4.2过滤器法 144
4.3嵌入法 149
第5章 特征抽取 154
5.1① 无监督特征抽取 154
5.1.1主成分分析 154
5.1.2因子分析 161
5.2有监督特征抽取 167
附录A Jupyter简介 173
附录B NumPy简介 176
附录C Pandas简介 185
附录D Matplotlib简介 194
后记 199