当前位置:首页 > 数理化
缺失数据的灵活填补方法  英文影印注释版
缺失数据的灵活填补方法  英文影印注释版

缺失数据的灵活填补方法 英文影印注释版PDF电子书下载

数理化

  • 电子书积分:12 积分如何计算积分?
  • 作 者:(荷)史蒂夫·范·布伦著;刘俊,夏爱生,索文莉,鞠涛注释
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111584162
  • 页数:316 页
图书介绍:本书共分为三大部分:Ⅰ基础篇、Ⅱ案例研究、Ⅲ延伸。这其中包含10个章节,作者结合众多实验中的例子,探讨如何解决缺失数据的问题,此类问题广泛存在于各个领域之中。书中算法结合统计软件来实现,主要内容包括多元缺失填补、单变量数据缺失、多变量缺失数据、数据填补实践、填补数据分析、测量、选择、结论等。深入地讨论了解决这类问题的方法,并分析了每种方法的适用范围和有缺点。本书可作为高等院校统计学专业的本科高年级学生以及研究生用书,也可作为与统计学专业相关的科研人员的参考书。
《缺失数据的灵活填补方法 英文影印注释版》目录

第Ⅰ部分 基础篇 1

1 概述 3

1.1 数据缺失问题 3

1.1.1 现行的方法 3

1.1.2 关于缺失数据的观点变化 5

1.2 关于MCAR、MAR和MNAR的概念 6

1.3 并不总奏效的简单方法 8

1.3.1 个案剔除法 8

1.3.2 成对剔除法 9

1.3.3 均值替代法 10

1.3.4 回归替代法 11

1.3.5 随机回归替代法 13

1.3.6 LOCF和BOFC方法 14

1.3.7 示性变量法 15

1.3.8 小结 15

1.4 多元数据填补简述 16

1.4.1 步骤 16

1.4.2 采用多元填补的原因 17

1.4.3 案例 18

1.5 本书的目的 20

1.6 本书未涵盖的内容 20

1.6.1 预防方法 21

1.6.2 权重程序 21

1.6.3 基于似然的处理方法 22

1.7 本书的结构 23

1.8 练习 23

2 多元填补 25

2.1 多元填补的历史 25

2.1.1 数据填补 25

2.1.2 多元数据填补 25

2.1.3 延伸文献 27

2.2 不完整数据的概念 28

2.2.1 关于不完整数据的观点 28

2.2.2 数据缺失的原因 29

2.2.3 本书采用的符号(系统) 30

2.2.4 关于MCAR、MAR和MNAR 31

2.2.5 可忽略性与不可忽略性 33

2.2.6 忽略的内在含义 34

2.3 采用多元填补的理由和时机 35

2.3.1 多元填补的目的 35

2.3.2 变量的三个来源 36

2.3.3 适宜性填补 38

2.3.4 填补模型的领域 40

2.3.5 方差比率 41

2.3.6 自由度 42

2.3.7 数值的例子 43

2.4 统计区间与检验 44

2.4.1 梯度推断与多参数推断的抉择 44

2.4.2 梯度推断 44

2.5 评价标准 45

2.5.1 数据填补并非预测 45

2.5.2 仿真设计与效能检测 47

2.6 何时采用多元填补 48

2.7 填补多少? 49

2.8 练习 51

3 单变量缺失数据 53

3.1 如何生成多元填补 53

3.1.1 预测方法 55

3.1.2 预测+干扰方法 55

3.1.3 预测+干扰+参数不确定性 55

3.1.4 第二类预测 56

3.1.5 观测数据的图像 56

3.1.6 结论 56

3.2 正态线性分布下的数据填补 57

3.2.1 概述 57

3.2.2 算法 57

3.2.3 运行结果 59

3.2.4 生成MAR型缺失数据 63

3.2.5 结论 64

3.3 非正态分布下的数据填补 65

3.3.1 概述 65

3.3.2 t-分布下的数据填补 66

3.3.3 案例 67

3.4 预测性均值匹配 68

3.4.1 概述 68

3.4.2 计算详述 70

3.4.3 算法 73

3.4.4 结论 74

3.5 数据分类 75

3.5.1 概述 75

3.5.2 完美预测 76

3.6 其他数据类型 78

3.6.1 计数数据 78

3.6.2 半连续数据 79

3.6.3 被删除的、删节的和被四舍五入的数据 79

3.7 分类与回归树 82

3.7.1 概述 82

3.7.2 基于CART模型的填补 83

3.8 多层级数据 84

3.8.1 概述 84

3.8.2 线性多层级模型的两个公式 85

3.8.3 计算 86

3.8.4 结论 87

3.9 不可忽略的缺失数据 88

3.9.1 概述 88

3.9.2 模型选取 89

3.9.3 模式混合模型 90

3.9.4 转换选择和模式混合模型 90

3.9.4 灵敏度分析 92

3.9.6 灵敏度分析的作用 93

3.10 练习 93

4 多变量缺失数据 95

4.1 缺失数据类型 95

4.1.1 概述 95

4.1.2 概括统计 96

4.1.3 流入与流出 99

4.2 多元填补中的问题 101

4.3 单调数据填补 102

4.3.1 概述 102

4.3.2 算法 103

4.4 联合建模 105

4.4.1 概述 105

4.4.2 连续数据 105

4.4.3 分类数据 107

4.5 充分条件详述 108

4.5.1 概述 108

4.5.2 MICE算法 109

4.5.3 性能 111

4.5.4 兼容性 111

4.5.5 循环数量 112

4.5.6 慢速收敛案例 113

4.6 FCS与JM 116

4.6.1 FCS和JM的联系 116

4.6.2 比较 117

4.6.3 演示 117

4.7 结论 121

4.8 练习 121

5 数据填补实践 123

5.1 模型选取概述 123

5.2 可否忽略的判别 125

5.3 模型形式和预测 126

5.3.1 模型形式 126

5.3.2 预测 127

5.4 衍生变量 129

5.4.1 变量比率 129

5.4.2 总分数 132

5.4.3 交互期 133

5.4.4 条件填补 133

5.4.5 成分数据 136

5.4.6 二次关联 139

5.5 算法选择 140

5.5.1 访问序列 140

5.5.2 收敛性 142

5.6 诊断学 146

5.6.1 模型适宜性与分布差异 146

5.6.2 诊断图 146

5.7 结论 151

5.8 练习 152

6 填补数据分析 153

6.1 如何处理填补数据 153

6.1.1 均值与求和 153

6.1.2 重复性分析 154

6.2 参数共用 155

6.2.1 正态量的数值推断 155

6.2.2 非正太量的数值推断 155

6.3 多元数据填补的正态检验 156

6.3.1 Wald检验 157

6.3.2 似然比检验 157

6.3.3 χ2一检验 159

6.3.4 模型参数的习惯假设检验 159

6.3.5 计算 160

6.4 逐步回归模型的选取 162

6.4.1 变量选取技巧 162

6.4.2 计算 163

6.4.3 模型优化 164

6.5 结论 166

6.6 练习 166

第Ⅱ部分 案例分析 169

7 测量 171

7.1 太多列问题 171

7.1.1 科学问题 172

7.1.2 莱顿85+军队 172

7.1.3 数据探查 173

7.1.4 外流通量 175

7.1.5 已记录事件 176

7.1.6 大批量数据的快速预测选取 177

7.1.7 生成填补 179

7.1.8 进一步改进:作为预测变量而存在 180

7.1.9 一些建议 181

7.2 灵敏度分析 182

7.2.1 缺失数据的成因及后果 182

7.2.2 情景 184

7.2.3 δ-修正下的数据填补生成 185

7.2.4 完整数据分析 186

7.2.5 结论 187

7.3 自报数据的普遍正确估计 188

7.3.1 问题描述 188

7.3.2 基于预测计数的不适宜性 189

7.3.3 主要观点 190

7.3.4 数据 191

7.3.5 应用 192

7.3.6 结论 193

7.4 提升可比性 194

7.4.1 问题描述 194

7.4.2 完全相关:简单等同 195

7.4.3 独立:无桥接的填补 196

7.4.4 完全独立或相关的判别 198

7.4.5 基于桥接的填补 199

7.4.6 说明 202

7.4.7 结论 203

7.5 练习 204

8 选择 205

8.1 所选数据缺失点的修正 205

8.1.1 连续19年的POPS研究 205

8.1.2 数据缺失点的特征化 206

8.1.3 填补模型 207

8.1.4 退化选择 208

8.1.5 更佳选择 210

8.1.6 结果 211

8.1.7 结论 211

8.2 无感应修正 212

8.2.1 第五次荷兰人口增长研究 212

8.2.2 无响应 213

8.2.3 与已知人口总体数值的比较 213

8.2.4 样本扩充 214

8.2.5 填补模型 215

8.2.6 无响应对最终高度的影响 217

8.2.7 讨论 218

8.3 练习 219

9 纵向数据 221

9.1 长宽格式 221

9.2 SE烟花造成灾难的研究 223

9.2.1 处理意义 224

9.2.2 填补模型 225

9.2.3 检验性填补 227

9.2.4 完整数据分析 228

9.2.5 完整数据分析结果 229

9.3 时间栅格填补 230

9.3.1 改变分数 231

9.3.2 科学问题:关键阶段 232

9.3.3 碎棒模型 234

9.3.4 Temeuzen出生群 236

9.3.5 收缩与分数改变 237

9.3.6 填补 238

9.3.7 完整数据分析 240

9.4 结论 242

9.5 练习 244

第Ⅲ部分 延伸 247

10 结论 249

10.1 风险、可以做的和不能做的 249

10.1.1 风险 249

10.1.2 可以做的 250

10.1.3 不能做的 251

10.2 报告编写 251

10.2.1 报告提纲 252

10.2.2 样板 254

10.3 其他应用 255

10.3.1 以数据保护为目的的人工数据集 255

10.3.2 潜在产出的填补 255

10.3.3 粗糙数据分析 256

10.3.4 多元数据集的文件匹配 256

10.3.5 为高效设计所计划的缺失数据 256

10.3.6 验证偏差的调整 257

10.3.7 测量误差的修正 257

10.4 展望 257

10.4.1 衍生变量 257

10.4.2 MICE算法的收敛问题 257

10.4.3 批和块的算法 258

10.4.4 并行算法 258

10.4.5 嵌套填补 258

10.4.6 填补的机器算法 259

10.4.7 吸收专家经验 259

10.4.8 自由分布的汇集规则 259

10.4.9 提升的诊断技术 260

10.4.10 模块统计学的块建设 260

10.5 练习 260

附录A 软件 263

A.1 R 263

A.2 S-Plus 265

A.3 Stata 265

A.4 SAS 266

A.5 SPSS 266

A.6 其他软件 266

参考文件 269

作者索引 299

主题索引 307

返回顶部