第1篇 统计分析基础 1
第1章 应确保数据是值得分析的 1
1.1 什么是数据和/或统计资料 1
1.1.1 数据不等于统计资料 1
1.1.2 统计资料的要素 2
1.2 确保数据值得分析的第一道关——制订科学完善的课题设计方案 3
1.2.1 什么叫科学研究 3
1.2.2 科学研究与课题之间是什么关系 3
1.2.3 做课题之前为什么要制订课题设计方案 3
1.2.4 课题设计方案有哪些种类 3
1.2.5 科学完善的科研设计方案的标志 5
1.3 确保数据值得分析的第二道关——实时进行严格的过程质量控制 6
1.3.1 必须严格控制课题实施过程中的质量 6
1.3.2 进行质量控制的必要性 6
1.3.3 进行质量控制的环节与措施 7
1.4 确保数据值得分析的第三道关——确保数据的原始性没有被破坏 7
1.4.1 应有切实可行的措施确保收集的数据具有原始性 7
1.4.2 与常见试验设计类型对应的规范化统计表 7
1.5 常见不值得分析的数据种类 17
1.5.1 人为编造的数据是不值得分析的 17
1.5.2 产生于质量控制不严的数据是不值得分析的 20
1.5.3 经过错误的方法加工整理后的数据是不值得分析的 20
1.5.4 不符合特定统计分析方法要求的数据是不值得分析的 21
1.5.5 盲目解释基于误用统计分析方法所得到的分析结果是不可取的 23
1.5.6 缺失值过多的数据是不值得分析的 24
1.6 本章小结 24
第2章 绘制统计图 25
2.1 问题、数据及统计描述方法的选择 25
2.1.1 问题与数据 25
2.1.2 对数据结构的分析 27
2.1.3 分析目的与统计描述方法的选择 27
2.1.4 统计图概述 28
2.2 绘制单式条图 28
2.2.1 程序及说明 28
2.2.2 输出单式条图 29
2.3 绘制复式条图 29
2.3.1 程序及说明 29
2.3.2 输出复式条图 30
2.4 绘制百分条图 30
2.4.1 程序及说明 30
2.4.2 输出百分条图 31
2.5 绘制圆图 32
2.5.1 程序及说明 32
2.5.2 输出圆图 32
2.6 绘制箱式图 33
2.6.1 程序及说明 33
2.6.2 输出箱式图 33
2.7 绘制直方图 34
2.7.1 程序及说明 34
2.7.2 输出直方图 34
2.8 绘制散点图 35
2.8.1 程序及说明 35
2.8.2 输出散点图 35
2.9 绘制普通线图 35
2.9.1 程序及说明 35
2.9.2 输出普通线图 36
2.10 绘制半对数线图 37
2.10.1 程序及说明 37
2.10.2 输出半对数线图 37
2.11 绘制P-P图和Q-Q图 38
2.11.1 程序及说明 38
2.11.2 输出P-P图 38
2.12 本章小结 39
第3章 统计分析方法的分类与合理选用的关键技术 40
3.1 统计分析方法的分类 40
3.1.1 概述 40
3.1.2 描述性统计分析 40
3.1.3 探索性统计分析 40
3.1.4 广义差异性统计分析 41
3.1.5 广义相关与回归分析 42
3.1.6 广义综合评价 45
3.2 合理选用统计分析方法的关键技术 47
3.2.1 合理选用统计分析方法的四要素 47
3.2.2 合理选用统计分析方法的实例演示 48
3.3 面对实际问题合理选用统计分析方法的要领 50
3.3.1 描述性统计分析 50
3.3.2 探索性统计分析 51
3.3.3 传统差异性统计分析 58
3.3.4 相关分析 59
3.3.5 回归分析 59
3.3.6 广义综合评价 60
3.4 本章小结 60
第4章 结合分析 61
4.1 问题与数据结构 61
4.1.1 实例 61
4.1.2 对数据结构的分析 63
4.1.3 统计分析目的与分析方法的选择 63
4.2 结合分析内容简介 63
4.2.1 基本概念 63
4.2.2 基本原理 64
4.3 结合分析的应用 65
4.3.1 用SAS分析例4-1中的资料 65
4.3.2 用SAS分析例4-2中的资料 67
4.4 本章小结 70
第2篇 变量间相互与依赖关系分析 71
第5章 路径分析 71
5.1 问题与数据结构 71
5.1.1 实例 71
5.1.2 对数据结构的分析 72
5.1.3 分析目的与统计分析方法的选择 72
5.2 路径分析内容简介 73
5.2.1 路径分析概述 73
5.2.2 适合进行路径分析的数据结构 73
5.2.3 路径分析的基本概念 74
5.2.4 路径分析的基本原理 74
5.2.5 路径分析的步骤 78
5.3 路径分析的应用 79
5.3.1 用REG过程实现路径分析 79
5.3.2 用CALIS过程实现路径分析 82
5.3.3 如何处理非同质资料的思考 85
5.3.4 用逐步多重线性回归分析方法分析例5-2的资料 87
5.4 本章小结 88
第6章 主成分分析 89
6.1 问题与数据结构 89
6.1.1 实例 89
6.1.2 对数据结构的分析 89
6.1.3 分析目的与统计分析方法的选择 90
6.2 主成分分析内容简介 90
6.2.1 主成分分析概述 90
6.2.2 主成分分析的基本原理 90
6.2.3 主成分的计算步骤及性质 91
6.2.4 与主成分分析有关的其他内容 94
6.2.5 PRINCOMP过程简介 94
6.3 主成分分析的应用 96
6.3.1 SAS程序 96
6.3.2 主要分析结果及解释 98
6.4 本章小结 101
第7章 变量聚类分析 102
7.1 问题与数据结构 102
7.1.1 实例 102
7.1.2 对数据结构的分析 102
7.1.3 分析目的与统计分析方法的选择 102
7.2 变量聚类分析内容简介 103
7.2.1 变量聚类分析的概念 103
7.2.2 变量聚类分析的聚类统计量 103
7.2.3 适合进行变量聚类分析的数据结构 103
7.2.4 VARCLUS过程简介 103
7.3 变量聚类分析的应用 106
7.3.1 SAS程序 106
7.3.2 主要分析结果及解释 107
7.4 本章小结 111
第8章 典型相关分析 112
8.1 问题与数据结构 112
8.1.1 实例 112
8.1.2 对数据结构的分析 112
8.1.3 分析目的与统计分析方法的选择 112
8.2 典型相关分析内容简介 113
8.2.1 典型相关分析概述 113
8.2.2 适合进行典型相关分析的数据结构 113
8.2.3 典型相关变量和典型相关系数的定义及解法 113
8.2.4 典型相关系数的假设检验 115
8.2.5 典型冗余分析 116
8.2.6 CANCORR过程简介 117
8.3 典型相关分析的应用 118
8.3.1 SAS程序 118
8.3.2 主要分析结果及解释 119
8.4 本章小结 125
第9章 多元多重线性回归分析 126
9.1 问题与数据结构 126
9.1.1 实例 126
9.1.2 对数据结构的分析 126
9.1.3 统计分析目的与统计分析方法的选择 126
9.2 多元多重线性回归分析内容简介 127
9.2.1 基于普通最小二乘法筛选自变量的思路 127
9.2.2 何为偏最小二乘回归分析 127
9.2.3 偏最小二乘回归分析的基本原理与步骤 127
9.3 偏最小二乘回归分析的应用 128
9.3.1 问题与数据结构 128
9.3.2 用两种检验方法来决定抽取几对主成分变量 128
9.4 如何获得较多统计量的计算结果 133
9.5 本章小结 136
第10章 探索性因子分析 137
10.1 问题与数据结构 137
10.1.1 实例 137
10.1.2 对数据结构的分析 137
10.1.3 分析目的与统计分析方法的选择 137
10.2 探索性因子分析内容简介 138
10.2.1 概述 138
10.2.2 探索性因子分析的数学模型 138
10.2.3 探索性因子分析中载荷矩阵A的统计意义 139
10.2.4 因子载荷矩阵A的估计方法 140
10.2.5 公因子个数的确定方法 141
10.2.6 因子旋转 142
10.2.7 因子得分 142
10.2.8 FACTOR过程简介 143
10.3 探索性因子分析的应用 145
10.3.1 SAS程序 145
10.3.2 主要分析结果及解释 146
10.4 本章小结 152
第11章 证实性因子分析 154
11.1 问题与数据结构 154
11.1.1 实例 154
11.1.2 对数据结构的分析 154
11.1.3 分析目的与统计分析方法的选择 155
11.2 证实性因子分析简介 155
11.2.1 概述 155
11.2.2 CALIS过程简介 155
11.3 证实性因子分析的应用 156
11.3.1 SAS程序 156
11.3.2 主要分析结果及解释 158
11.4 本章小结 160
第12章 结构方程模型分析 161
12.1 问题与数据结构 161
12.1.1 实例 161
12.1.2 对数据结构的分析 161
12.1.3 分析目的与统计分析方法的选择 162
12.2 结构方程模型简介 162
12.2.1 概述 162
12.2.2 基本原理 163
12.3 结构方程模型分析的应用 164
12.3.1 SAS程序 164
12.3.2 主要分析结果及解释 165
12.4 本章小结 168
第3篇 样品间亲疏、优劣或相对位置分析 169
第13章 传统综合评价 169
13.1 问题与数据结构 169
13.1.1 实例 169
13.1.2 对数据结构的分析 170
13.1.3 分析目的与统计分析方法的选择 171
13.2 传统综合评价方法内容介绍 172
13.2.1 综合评分法 172
13.2.2 Topsis法 173
13.2.3 层次分析法 174
13.2.4 RSR综合评价法 176
13.3 传统综合评价方法的应用 177
13.3.1 用综合评分法对例13-1的资料进行综合评价 177
13.3.2 用Topsis法对例13-2的资料进行综合评价 181
13.3.3 用层次分析法对例13-3的资料进行综合评价 183
13.3.4 用RSR综合评价法对例13-4的资料进行综合评价 186
13.4 本章小结 188
第14章 无序样品聚类分析 189
14.1 问题与数据结构 189
14.1.1 实例 189
14.1.2 对数据结构的分析 189
14.1.3 分析目的与统计分析方法的选择 189
14.2 无序样品聚类分析简介 190
14.2.1 概述 190
14.2.2 无序样品聚类分析方法分类 190
14.2.3 类的特征与个数的确定 191
14.2.4 无序样品聚类分析的计算原理 193
14.2.5 CLUSTER过程等简介 200
14.3 无序样品聚类分析的应用 204
14.3.1 SAS程序 204
14.3.2 主要分析结果及解释 206
14.4 本章小结 212
第15章 有序样品聚类分析 213
15.1 问题与数据结构 213
15.1.1 实例 213
15.1.2 对数据结构的分析 214
15.1.3 分析目的与统计分析方法的选择 214
15.2 有序样品聚类分析内容简介 214
15.2.1 概述 214
15.2.2 有序样品聚类分析的基本概念 214
15.2.3 有序样品聚类分析的计算原理 215
15.3 有序样品聚类分析的应用 217
15.3.1 SAS程序 217
15.3.2 主要分析结果及解释 219
15.4 本章小结 222
第16章 多维尺度分析 223
16.1 问题与数据结构 223
16.1.1 实例 223
16.1.2 对数据结构的分析 224
16.1.3 分析目的与统计分析方法的选择 224
16.2 多维尺度分析内容简介 224
16.2.1 概述 224
16.2.2 度量型多维尺度分析的计算原理 224
16.2.3 非度量型多维尺度分析的计算原理 227
16.3 多维尺度分析的应用 228
16.3.1 SAS程序 228
16.3.2 主要分析结果及解释 229
16.4 MDS过程简介 231
16.5 本章小结 233
第4篇 样品与变量或原因与结果之间的关联性分析 234
第17章 定量资料对应分析 234
17.1 问题与数据结构 234
17.1.1 实例 234
17.1.2 对数据结构的分析 234
17.1.3 分析目的与统计分析方法的选择 235
17.2 定量资料对应分析简介 235
17.2.1 概述 235
17.2.2 定量资料对应分析的基本原理 235
17.2.3 定量资料对应分析的实施步骤 236
17.3 定量资料对应分析的应用 238
17.3.1 SAS程序 238
17.3.2 主要分析结果及解释 238
17.4 本章小结 240
第18章 定性资料对应分析 241
18.1 问题与数据结构 241
18.1.1 实例 241
18.1.2 对数据结构的分析 241
18.1.3 分析目的与统计分析方法的选择 242
18.2 定性资料对应分析内容简介 242
18.3 定性资料对应分析的应用 242
18.3.1 SAS程序 242
18.3.2 主要分析结果及解释 243
18.4 本章小结 246
第19章 Shannon信息量分析 247
19.1 问题与数据结构 247
19.1.1 实例 247
19.1.2 对数据结构的分析 248
19.1.3 统计分析目的与分析方法的选择 248
19.2 Shannon信息量分析内容简介 248
19.2.1 概述 248
19.2.2 Shannon信息量分析的基本原理 248
19.3 Shannon信息量分析的应用 250
19.3.1 对例19-1的资料进行Shannon信息量分析 250
19.3.2 对例19-2的资料进行Shannon信息量分析 251
19.4 本章小结 252
第5篇 数据挖掘与分析 253
第20章 决策树分析 253
20.1 决策树简介 253
20.2 决策树的基本原理 253
20.3 决策树种类及决策树构造思路 254
20.4 递归分割的分裂准则 255
20.5 变量重要性检测 259
20.6 实际应用与结果解释 259
20.7 用数据挖掘模块近似实现各种决策树算法 272
20.8 本章小结 273
第21章 神经网络分析 274
21.1 前馈型神经网络简介 274
21.2 多层感知器的学习 276
21.3 模型过拟合 279
21.4 模型复杂性的评价 279
21.4.1 模型泛化能力(Generalization)的评价 279
21.4.2 模型选择的标准 281
21.5 实际应用与结果解释 281
21.6 本章小结 294
第22章 数据挖掘与分析 295
22.1 数据挖掘的基本概念 295
22.1.1 数据挖掘的背景 295
22.1.2 数据挖掘的基本概念 295
22.1.3 数据挖掘任务的分类 295
22.1.4 数据挖掘的应用 296
22.2 SAS企业数据挖掘器介绍 296
22.3 关联规则与序列规则 296
22.3.1 关联规则分析 296
22.3.2 关联规则挖掘实例分析 297
22.3.3 序列规则则分析 301
22.3.4 序列规则挖掘实例分析 301
22.4 分类预测 305
22.4.1 数据准备 306
22.4.2 数据探索与数据转换 306
22.4.3 构造预测模型 307
22.4.4 模型评估与数据预测 308
22.5 本章小结 308
第23章 基因表达谱分析 309
23.1 基因表达谱的概念 309
23.2 基因表达谱的数据获取及标准化 309
23.2.1 基因表达谱的数据获取 309
23.2.2 基因表达数据的标准化 310
23.3 基因表达数据分析技术 311
23.3.1 差异表达基因的筛选 311
23.3.2 基因表达的聚类分析方法 311
23.4 基因调控网络分析 320
23.5 本章小结 322
第24章 生物信息分析 323
24.1 生物信息学定义 323
24.1.1 生物学问题 323
24.1.2 生物数据 323
24.1.3 计算工具 323
24.2 统计学在生物信息学中的应用 324
24.2.1 基于基因表达谱的样本分型研究 324
24.2.2 基于基因表达谱的样本分类研究 330
24.3 本章小结 334
第6篇 遗传资料统计分析 335
第25章 用SAS实现遗传资料统计分析 335
25.1 SAS/Genetics简介 335
25.2 ALLELE、HAPLOTYPE和HTSNP过程简介 336
25.2.1 数据格式 336
25.2.2 ALLELE过程的语法结构 338
25.2.3 HAPLOTYPE过程的语法结构 341
25.2.4 HTSNP过程的语法结构及其应用 343
25.3 利用CASECONTROL和FAMILY进行关联分析 344
25.3.1 CASECONTROL过程的语法结构 344
25.3.2 FAMILY过程的语法结构及其应用 345
25.4 亲缘系数和近交系数 347
25.5 结果校正和图形输出 349
25.5.1 平滑处理和多重检验校正 349
25.5.2 PSMOOTH过程的语法结构及其应用 349
25.5.3 %TPLOT宏及其应用 350
25.6 本章小结 351
第26章 遗传流行病学资料的统计分析 352
26.1 基因、基因型频率测定与哈代-温伯格(Hardy-Weinberg)平衡定律的验证 352
26.1.1 问题与数据 352
26.1.2 SAS程序中重要内容的说明 352
26.1.3 主要分析结果及解释 353
26.2 连锁不平衡与单体型分析 353
26.2.1 问题与数据 354
26.2.2 SAS程序中重要内容的说明 354
26.2.3 主要分析结果及解释 354
26.3 多位点基因型与疾病关联分析 355
26.3.1 问题与数据 355
26.3.2 SAS程序中重要内容的说明 356
26.3.3 主要分析结果及解释 356
26.4 标签SNP的确认与SAS程序 357
26.4.1 问题与数据 357
26.4.2 SAS程序中重要内容的说明 357
26.4.3 主要分析结果及解释 358
26.5 一般人群病例对照遗传资料的关联分析 358
26.5.1 问题与数据 359
26.5.2 SAS程序中重要内容的说明 359
26.5.3 主要分析结果及解释 360
26.6 家系数据的关联分析 360
26.6.1 问题与数据 360
26.6.2 SAS程序中重要内容的说明 361
26.6.3 主要分析结果及解释 362
26.7 本章小结 362
附录 364
附录A胡良平统计学专著及配套软件简介 364