缺失数据的灵活填补方法 英文影印注释版PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:(荷)史蒂夫·范·布伦著;刘俊,夏爱生,索文莉,鞠涛注释
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111584162
- 页数:316 页
第Ⅰ部分 基础篇 1
1 概述 3
1.1 数据缺失问题 3
1.1.1 现行的方法 3
1.1.2 关于缺失数据的观点变化 5
1.2 关于MCAR、MAR和MNAR的概念 6
1.3 并不总奏效的简单方法 8
1.3.1 个案剔除法 8
1.3.2 成对剔除法 9
1.3.3 均值替代法 10
1.3.4 回归替代法 11
1.3.5 随机回归替代法 13
1.3.6 LOCF和BOFC方法 14
1.3.7 示性变量法 15
1.3.8 小结 15
1.4 多元数据填补简述 16
1.4.1 步骤 16
1.4.2 采用多元填补的原因 17
1.4.3 案例 18
1.5 本书的目的 20
1.6 本书未涵盖的内容 20
1.6.1 预防方法 21
1.6.2 权重程序 21
1.6.3 基于似然的处理方法 22
1.7 本书的结构 23
1.8 练习 23
2 多元填补 25
2.1 多元填补的历史 25
2.1.1 数据填补 25
2.1.2 多元数据填补 25
2.1.3 延伸文献 27
2.2 不完整数据的概念 28
2.2.1 关于不完整数据的观点 28
2.2.2 数据缺失的原因 29
2.2.3 本书采用的符号(系统) 30
2.2.4 关于MCAR、MAR和MNAR 31
2.2.5 可忽略性与不可忽略性 33
2.2.6 忽略的内在含义 34
2.3 采用多元填补的理由和时机 35
2.3.1 多元填补的目的 35
2.3.2 变量的三个来源 36
2.3.3 适宜性填补 38
2.3.4 填补模型的领域 40
2.3.5 方差比率 41
2.3.6 自由度 42
2.3.7 数值的例子 43
2.4 统计区间与检验 44
2.4.1 梯度推断与多参数推断的抉择 44
2.4.2 梯度推断 44
2.5 评价标准 45
2.5.1 数据填补并非预测 45
2.5.2 仿真设计与效能检测 47
2.6 何时采用多元填补 48
2.7 填补多少? 49
2.8 练习 51
3 单变量缺失数据 53
3.1 如何生成多元填补 53
3.1.1 预测方法 55
3.1.2 预测+干扰方法 55
3.1.3 预测+干扰+参数不确定性 55
3.1.4 第二类预测 56
3.1.5 观测数据的图像 56
3.1.6 结论 56
3.2 正态线性分布下的数据填补 57
3.2.1 概述 57
3.2.2 算法 57
3.2.3 运行结果 59
3.2.4 生成MAR型缺失数据 63
3.2.5 结论 64
3.3 非正态分布下的数据填补 65
3.3.1 概述 65
3.3.2 t-分布下的数据填补 66
3.3.3 案例 67
3.4 预测性均值匹配 68
3.4.1 概述 68
3.4.2 计算详述 70
3.4.3 算法 73
3.4.4 结论 74
3.5 数据分类 75
3.5.1 概述 75
3.5.2 完美预测 76
3.6 其他数据类型 78
3.6.1 计数数据 78
3.6.2 半连续数据 79
3.6.3 被删除的、删节的和被四舍五入的数据 79
3.7 分类与回归树 82
3.7.1 概述 82
3.7.2 基于CART模型的填补 83
3.8 多层级数据 84
3.8.1 概述 84
3.8.2 线性多层级模型的两个公式 85
3.8.3 计算 86
3.8.4 结论 87
3.9 不可忽略的缺失数据 88
3.9.1 概述 88
3.9.2 模型选取 89
3.9.3 模式混合模型 90
3.9.4 转换选择和模式混合模型 90
3.9.4 灵敏度分析 92
3.9.6 灵敏度分析的作用 93
3.10 练习 93
4 多变量缺失数据 95
4.1 缺失数据类型 95
4.1.1 概述 95
4.1.2 概括统计 96
4.1.3 流入与流出 99
4.2 多元填补中的问题 101
4.3 单调数据填补 102
4.3.1 概述 102
4.3.2 算法 103
4.4 联合建模 105
4.4.1 概述 105
4.4.2 连续数据 105
4.4.3 分类数据 107
4.5 充分条件详述 108
4.5.1 概述 108
4.5.2 MICE算法 109
4.5.3 性能 111
4.5.4 兼容性 111
4.5.5 循环数量 112
4.5.6 慢速收敛案例 113
4.6 FCS与JM 116
4.6.1 FCS和JM的联系 116
4.6.2 比较 117
4.6.3 演示 117
4.7 结论 121
4.8 练习 121
5 数据填补实践 123
5.1 模型选取概述 123
5.2 可否忽略的判别 125
5.3 模型形式和预测 126
5.3.1 模型形式 126
5.3.2 预测 127
5.4 衍生变量 129
5.4.1 变量比率 129
5.4.2 总分数 132
5.4.3 交互期 133
5.4.4 条件填补 133
5.4.5 成分数据 136
5.4.6 二次关联 139
5.5 算法选择 140
5.5.1 访问序列 140
5.5.2 收敛性 142
5.6 诊断学 146
5.6.1 模型适宜性与分布差异 146
5.6.2 诊断图 146
5.7 结论 151
5.8 练习 152
6 填补数据分析 153
6.1 如何处理填补数据 153
6.1.1 均值与求和 153
6.1.2 重复性分析 154
6.2 参数共用 155
6.2.1 正态量的数值推断 155
6.2.2 非正太量的数值推断 155
6.3 多元数据填补的正态检验 156
6.3.1 Wald检验 157
6.3.2 似然比检验 157
6.3.3 χ2一检验 159
6.3.4 模型参数的习惯假设检验 159
6.3.5 计算 160
6.4 逐步回归模型的选取 162
6.4.1 变量选取技巧 162
6.4.2 计算 163
6.4.3 模型优化 164
6.5 结论 166
6.6 练习 166
第Ⅱ部分 案例分析 169
7 测量 171
7.1 太多列问题 171
7.1.1 科学问题 172
7.1.2 莱顿85+军队 172
7.1.3 数据探查 173
7.1.4 外流通量 175
7.1.5 已记录事件 176
7.1.6 大批量数据的快速预测选取 177
7.1.7 生成填补 179
7.1.8 进一步改进:作为预测变量而存在 180
7.1.9 一些建议 181
7.2 灵敏度分析 182
7.2.1 缺失数据的成因及后果 182
7.2.2 情景 184
7.2.3 δ-修正下的数据填补生成 185
7.2.4 完整数据分析 186
7.2.5 结论 187
7.3 自报数据的普遍正确估计 188
7.3.1 问题描述 188
7.3.2 基于预测计数的不适宜性 189
7.3.3 主要观点 190
7.3.4 数据 191
7.3.5 应用 192
7.3.6 结论 193
7.4 提升可比性 194
7.4.1 问题描述 194
7.4.2 完全相关:简单等同 195
7.4.3 独立:无桥接的填补 196
7.4.4 完全独立或相关的判别 198
7.4.5 基于桥接的填补 199
7.4.6 说明 202
7.4.7 结论 203
7.5 练习 204
8 选择 205
8.1 所选数据缺失点的修正 205
8.1.1 连续19年的POPS研究 205
8.1.2 数据缺失点的特征化 206
8.1.3 填补模型 207
8.1.4 退化选择 208
8.1.5 更佳选择 210
8.1.6 结果 211
8.1.7 结论 211
8.2 无感应修正 212
8.2.1 第五次荷兰人口增长研究 212
8.2.2 无响应 213
8.2.3 与已知人口总体数值的比较 213
8.2.4 样本扩充 214
8.2.5 填补模型 215
8.2.6 无响应对最终高度的影响 217
8.2.7 讨论 218
8.3 练习 219
9 纵向数据 221
9.1 长宽格式 221
9.2 SE烟花造成灾难的研究 223
9.2.1 处理意义 224
9.2.2 填补模型 225
9.2.3 检验性填补 227
9.2.4 完整数据分析 228
9.2.5 完整数据分析结果 229
9.3 时间栅格填补 230
9.3.1 改变分数 231
9.3.2 科学问题:关键阶段 232
9.3.3 碎棒模型 234
9.3.4 Temeuzen出生群 236
9.3.5 收缩与分数改变 237
9.3.6 填补 238
9.3.7 完整数据分析 240
9.4 结论 242
9.5 练习 244
第Ⅲ部分 延伸 247
10 结论 249
10.1 风险、可以做的和不能做的 249
10.1.1 风险 249
10.1.2 可以做的 250
10.1.3 不能做的 251
10.2 报告编写 251
10.2.1 报告提纲 252
10.2.2 样板 254
10.3 其他应用 255
10.3.1 以数据保护为目的的人工数据集 255
10.3.2 潜在产出的填补 255
10.3.3 粗糙数据分析 256
10.3.4 多元数据集的文件匹配 256
10.3.5 为高效设计所计划的缺失数据 256
10.3.6 验证偏差的调整 257
10.3.7 测量误差的修正 257
10.4 展望 257
10.4.1 衍生变量 257
10.4.2 MICE算法的收敛问题 257
10.4.3 批和块的算法 258
10.4.4 并行算法 258
10.4.5 嵌套填补 258
10.4.6 填补的机器算法 259
10.4.7 吸收专家经验 259
10.4.8 自由分布的汇集规则 259
10.4.9 提升的诊断技术 260
10.4.10 模块统计学的块建设 260
10.5 练习 260
附录A 软件 263
A.1 R 263
A.2 S-Plus 265
A.3 Stata 265
A.4 SAS 266
A.5 SPSS 266
A.6 其他软件 266
参考文件 269
作者索引 299
主题索引 307
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《基于地质雷达信号波的土壤重金属污染探测方法研究》赵贵章 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《数学物理方法与仿真 第3版》杨华军 2020
- 《Helmholtz方程的步进计算方法研究》李鹏著 2019
- 《土壤环境监测前沿分析测试方法研究》中国环境监测总站编著 2018
- 《微笑 影印本》N.达列基作 1947
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《战国策注释 下》何建章注释 2019
- 《交通工程安全风险管控与隐患排查一体化理论方法与信息化管理技术》王海燕著 2019
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019