《属性数据分析引论》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:Alan Agresti著
  • 出 版 社:北京:高等教育出版社
  • 出版年份:2008
  • ISBN:9787040247510
  • 页数:318 页
图书介绍:属性数据分析广泛应用于社会科学、行为科学、生物医学、公共卫生、市场营销、教育和农业科学等许多领域。本书的起点较低,仅仅要求读者具有两门基础统计课程的知识,包括参数估计、假设检验、回归分析模型及方差分析模型。全书分为十一章,分别介绍了与属性数据有关的统计学基础知识,列联表的相关知识,广义线性模型理论,logistic回归模型的理论、应用及其推广,对数线性模型,配对数据模型,聚簇关联响应的建模,广义线性混合模型,以及属性数据分析方法的发展史.本书内容详尽而不失精炼,整个体系力求完整而不失紧凑,语言深入浅出,通俗易懂.配备了大量经典案例,每章附有适量习题.这些习题编排精心,由浅入深,能够引导读者进一步凝练正文内容,锻炼解决实际问题的能力.本书具有100个左右的实际案例,同时附有每种统计方法的SAS及SPSS的实现过程。本书可以作为大学生及研究生学习“属性数据分析”入门课程的教材,也可作为应用统计学家和在实际工作中涉及数据分析的专家学者的参考书。

第1章 导言 1

1.1 属性响应数据 1

1.1.1 响应变量和解释变量的区别 2

1.1.2 名义量表和有序量表的区别 2

1.1.3 本书的结构 3

1.2 属性数据的概率分布 3

1.2.1 二项分布 3

1.2.2 多项分布 5

1.3 比例的统计推断 5

1.3.1 似然函数和极大似然估计 5

1.3.2 二项比例的显著性检验 7

1.3.3 案例:关于堕胎合法化的调查结果 7

1.3.4 二项比例的置信区间 8

1.4 关于离散数据的更多统计推断 9

1.4.1 Wald,似然比和得分推断 9

1.4.2 二项参数的Wald,得分和似然比推断 11

1.4.3 小样本二项推断 11

1.4.4 小样本离散数据推断的保守性 12

1.4.5 基于中间P-值的推断 13

1.4.6 小结 13

习题 14

第2章 列联表 18

2.1 列联表的概率结构 18

2.1.1 联合概率,边缘概率以及条件概率 19

2.1.2 案例:关于来世 19

2.1.3 诊断检验的敏感度和特异度 20

2.1.4 独立性 21

2.1.5 二项抽样和多项抽样 21

2.2 2×2表比例的比较 22

2.2.1 比例差 22

2.2.2 案例:阿司匹林与心脏病 22

2.2.3 相对风险 23

2.3 优势比 24

2.3.1 优势比的性质 24

2.3.2 案例:阿司匹林和心脏病案例中的优势比 25

2.3.3 优势比和对数优势比的推断 25

2.3.4 优势比和相对风险的联系 27

2.3.5 案例对照研究中优势比的应用 27

2.3.6 观测研究的种类 28

2.4 独立性的卡方检验 29

2.4.1 皮尔逊统计量和卡方分布 29

2.4.2 似然比统计量 30

2.4.3 独立性检验 31

2.4.4 案例:政党认同中的性别差异 31

2.4.5 列联表的单元残差 32

2.4.6 卡方统计量的分解 33

2.4.7 卡方检验的小结 34

2.5 有序数据的独立性检验 34

2.5.1 线性趋势与独立性 35

2.5.2 案例:饮酒与婴儿畸形 35

2.5.3 有序检验的特殊功效 36

2.5.4 得分的选择 37

2.5.5 I×2表和2×J表趋势的检验 38

2.5.6 名义变量—有序变量列联表 38

2.6 小样本的精确推断 38

2.6.1 2×2表的费希尔精确检验 38

2.6.2 案例:费希尔的品茶者试验 39

2.6.3 P-值和真实P-值的保守性(第I类错误) 40

2.6.4 优势比的小样本置信区间 41

2.7 三向列联表的关联性 41

2.7.1 部分表 42

2.7.2 条件关联与边缘关联:死刑判决的案例 42

2.7.3 辛普森悖论 43

2.7.4 条件优势比和边缘优势比 44

2.7.5 条件独立和边缘独立 45

2.7.6 齐次关联性 46

习题 46

第3章 广义线性模型 55

3.1 广义线性模型的构成部分 55

3.1.1 随机部分 56

3.1.2 系统部分 56

3.1.3 联系函数 56

3.1.4 正态GLM 57

3.2 二分数据的广义线性模型 57

3.2.1 线性概率模型 58

3.2.2 案例:打鼾与心脏病 58

3.2.3 logistic回归模型 59

3.2.4 probit回归模型 61

3.2.5 二分回归和累积分布函数 61

3.3 计数数据的广义线性模型 62

3.3.1 泊松回归 63

3.3.2 案例:母鲎及其追随者 64

3.3.3 超散布性:超出预期的变异性 67

3.3.4 负二项分布 68

3.3.5 比率数据的计数回归 69

3.3.6 案例:英国的火车事故 69

3.4 统计推断和模型检验 70

3.4.1 关于模型参数的推断 70

3.4.2 案例:再访打鼾与心脏病的案例 71

3.4.3 偏差 71

3.4.4 基于偏差的模型比较 72

3.4.5 比较观测和模型拟合的残差 72

3.5 广义线性模型的拟合 73

3.5.1 GLM拟合的Newton-Raphson算法 73

3.5.2 依赖于似然函数的Wald,似然比以及得分推断 74

3.5.3 GLM的优势 75

习题 75

第4章 logistic回归 83

4.1 logistic回归模型的解释 83

4.1.1 线性近似解释 84

4.1.2 母鲎:观察并平滑二分结果 85

4.1.3 鲎:logistic回归拟合的解释 86

4.1.4 优势比解释 88

4.1.5 回顾性研究中的logistic回归 88

4.1.6 X服从正态分布意味着Y适合logistic回归 89

4.2 logistic回归的推断 89

4.2.1 分组或未分组的二分数据 89

4.2.2 效应的置信区间 90

4.2.3 显著性检验 90

4.2.4 概率的置信区间 91

4.2.5 为什么使用模型估计概率? 91

4.2.6 概率的置信区间:细节 91

4.2.7 模型参数估计的标准误 92

4.3 属性预测变量的logistic回归 93

4.3.1 用指示变量表示属性预测变量 93

4.3.2 案例:AZT和AIDS 94

4.3.3 因子的ANOVA型模型表示 95

4.3.4 2×2×K列联表的Cochran-Mantel-Haenszel检验 96

4.3.5 优势比齐次性检验 97

4.4 多元logistic回归 97

4.4.1 案例:以颜色和宽度作为预测变量的母鲎案例 97

4.4.2 通过模型对比确认某项是否必要 99

4.4.3 有序预测变量的定量化处理 100

4.4.4 容许交互效应 101

4.5 logistic回归效应的概括 101

4.5.1 基于概率的解释 101

4.5.2 标准化解释 102

习题 103

第5章 logistic回归模型的构建及应用 115

5.1 模型选择策略 115

5.1.1 运用多少个预测变量? 115

5.1.2 案例:再访鲎的数据 116

5.1.3 逐步变量选择算法 117

5.1.4 案例:鲎数据的向后剔除 118

5.1.5 AIC,模型选择及“正确”模型 118

5.1.6 概括预测功效:分类表 119

5.1.7 概括预测功效:ROC曲线 120

5.1.8 概括预测功效:相关 121

5.2 模型检验 121

5.2.1 模型比较的似然比检验 122

5.2.2 拟合优度与偏差 122

5.2.3 检验拟合:分组数据,未分组数据及连续预测变量 123

5.2.4 logit模型的残差 124

5.2.5 案例:佛罗里达大学的研究生入学 125

5.2.6 logistic回归的影响诊断 126

5.2.7 案例:心脏病与血压的关系 127

5.3 稀疏数据效应 128

5.3.1 无穷效应估计:定量预测变量 128

5.3.2 无穷效应估计:属性预测变量 129

5.3.3 案例:带有稀疏数据的临床试验结果 130

5.3.4 小样本对X2和G2检验的影响 131

5.4 条件logistic回归与精确推断 132

5.4.1 条件极大似然推断 132

5.4.2 列联表的小样本检验 133

5.4.3 案例:晋升能力 133

5.4.4 logistic参数和优势比的小样本置信区间 134

5.4.5 小样本精确方法的局限性 134

5.5 logistic回归的样本量与功效 135

5.5.1 比较两个比例所需的样本量 135

5.5.2 logistic回归中的样本量 136

5.5.3 多重logistic回归中的样本量 137

习题 137

第6章 多类别logit模型 146

6.1 名义响应变量的logit模型 146

6.1.1 基线-类别logit 146

6.1.2 案例:钝吻鳄食物选择 147

6.1.3 估计响应概率 149

6.1.4 案例:是否相信来世 150

6.1.5 离散选择模型 151

6.2 有序响应变量的累积logit模型 152

6.2.1 具有比例优势特性的累积logit模型 152

6.2.2 案例:政治意识形态与隶属党派的关系 154

6.2.3 模型参数的推断 155

6.2.4 模型拟合的检验 156

6.2.5 案例:对心理健康建模 157

6.2.6 比较累积概率的解释 158

6.2.7 潜变量诱导 159

6.2.8 响应类别选择的不变性 160

6.3 成对类别有序logit 160

6.3.1 相邻类别logit 161

6.3.2 案例:再访政治意识形态 161

6.3.3 相继比logit 161

6.3.4 案例:发育毒性研究 162

6.3.5 聚簇数据中的超散布性 163

6.4 条件独立性检验 163

6.4.1 案例:工作满意度和收入 163

6.4.2 推广的Cochran-Mantel-Haenszel检验 165

6.4.3 探测名义-有序条件关联 165

6.4.4 探测名义-名义条件关联 166

习题 166

第7章 列联表的对数线性模型 173

7.1 双向表和三向表的对数线性模型 173

7.1.1 双向表的独立性对数线性模型 174

7.1.2 独立性模型中的参数解释 174

7.1.3 双向表的饱和模型 175

7.1.4 三向表的对数线性模型 177

7.1.5 两因子参数描述条件关联 177

7.1.6 案例:酒、香烟、大麻的使用 178

7.2 对数线性模型的推断 180

7.2.1 卡方拟合优度检验 180

7.2.2 对数线性单元残差 181

7.2.3 条件关联的检验 182

7.2.4 条件优势比的置信区间 182

7.2.5 高维对数线性模型 183

7.2.6 案例:汽车事故与安全带 183

7.2.7 三因子交互作用 185

7.2.8 大样本和统计与实践显著性 186

7.3 对数线性模型与logistic模型的联系 186

7.3.1 利用logistic模型解释对数线性模型 187

7.3.2 案例:再访汽车事故数据 187

7.3.3 对数线性模型和logistic模型间的对应 188

7.3.4 模型选择策略 189

7.4 独立图和衰退 189

7.4.1 独立图 190

7.4.2 三向表的衰退条件 190

7.4.3 衰退与logistic模型 191

7.4.4 多向表的衰退与独立图 192

7.4.5 案例:学生成瘾物质使用的模型构建 192

7.4.6 图模型 194

7.5 对有序关联建模 194

7.5.1 线性—线性关联模型 196

7.5.2 案例:性选择 197

7.5.3 有序的独立性检验 197

习题 198

第8章 配对数据的模型 209

8.1 比较关联样本的比例 210

8.1.1 比较边缘比例的McNemar检验 210

8.1.2 比例的差的估计 211

8.2 配对的logistic回归 212

8.2.1 针对边缘比例的边缘模型 212

8.2.2 特定个体表与平均总体表 212

8.2.3 配对的条件logistic回归 213

8.2.4 匹配案例对照研究的logistic回归 214

8.2.5 McNemar与Cochran-Mantel-Haenszel检验的联系 216

8.3 比较方形列联表的边缘分布 216

8.3.1 边缘齐性与名义分类 216

8.3.2 案例:咖啡品牌市场份额 217

8.3.3 边缘齐性与有序类别 218

8.3.4 案例:为了环保,再利用或少开车? 219

8.4 方形表的对称性模型与拟对称性模型 219

8.4.1 以logistic模型表示的对称性 220

8.4.2 拟对称性 220

8.4.3 案例:再访咖啡品牌市场份额 220

8.4.4 利用对称性和拟对称性来检验边缘齐性 221

8.4.5 有序拟对称性模型 221

8.4.6 案例:再利用或少开车? 222

8.4.7 利用对称性模型与有序拟对称性模型来检验边缘齐性 222

8.5 分析评级者的一致性 222

8.5.1 独立性模型的单元残差 223

8.5.2 拟独立性模型 224

8.5.3 概括一致性的优势比 225

8.5.4 拟对称性和一致性建模 225

8.5.5 一致性的kappa度量 226

8.6 成对偏好的BRADLEY-TERRY模型 226

8.6.1 Bradley-Terry模型 227

8.6.2 案例:对男子网球选手排序 227

习题 228

第9章 关联,聚簇响应的建模 235

9.1 边缘模型及条件模型 236

9.1.1 聚簇二分响应的边缘模型 236

9.1.2 案例:抑郁症治疗的纵向研究 236

9.1.3 重复响应的条件模型 237

9.2 边缘模型:广义估计方程(GEE)方法 238

9.2.1 拟似然方法 238

9.2.2 广义估计方程方法:基本思想 239

9.2.3 二分数据的GEE:抑郁症的研究 240

9.2.4 案例:畸胎学中的超散布性 241

9.2.5 与ML相比,GEE的局限性 242

9.3 GEE的扩展:多项响应 242

9.3.1 聚簇多项响应的边缘模型 242

9.3.2 案例:关于失眠的研究 243

9.3.3 利用GEE对关联性进行建模的另一种方法 244

9.3.4 缺失数据的处理 244

9.4 给定既往的转移模型 245

9.4.1 含有解释变量的转移模型 245

9.4.2 案例:呼吸疾病和母亲吸烟 245

9.4.3 控制初始响应的比较 246

9.4.4 和对数线性模型有关的转移模型 247

习题 247

第10章 随机效应:广义线性混合模型 253

10.1 聚簇属性数据的随机效应建模 253

10.1.1 广义线性混合模型 253

10.1.2 二分配对的logistic GLMM 254

10.1.3 案例:再访对环保的贡献问题 255

10.1.4 条件模型与边缘模型的不同效应 256

10.2 二分数据的随机效应模型的案例 257

10.2.1 二项分布概率的小区域估计 257

10.2.2 案例:估计篮球罚球成功率 258

10.2.3 案例:再访畸形研究超离散化问题 259

10.2.4 案例:相似调查问题的重复响应 260

10.2.5 项目反应模型:Rasch模型 261

10.2.6 案例:再访抑郁症研究 262

10.2.7 边缘模型和条件模型的选择 263

10.2.8 条件模型:随机效应与条件ML 264

10.3 向多项响应或多个随机效应项的推广 264

10.3.1 案例:再访失眠研究 264

10.3.2 随机效应与关联异质性 265

10.4 多水平(层次)模型 267

10.4.1 案例:关于学生进级的两水平模型 268

10.4.2 案例:留级 268

10.5 GLMM的模型拟合与推断 269

10.5.1 拟合GLMM 269

10.5.2 模型参数的推断 270

习题 271

第11章 属性数据分析史漫谈 277

11.1 PEARSON-YULE关联性的争议 277

11.2 R.A.FISHER的贡献 278

11.3 logistic回归 279

11.4 多向列联表和对数线性模型 280

11.5 最后的一点评论 282

附录A:针对属性数据分析的软件 283

附录B:卡方分布表 293

参考文献 294

案例索引 296

名词索引 299

部分奇数号习题的简要答案 306