第一部分 基本概念和方法 3
第一章 绪论 3
1.1 诊断试验准确度研究 3
1.2 实例介绍 5
1.2.1 实例1:甲状旁腺疾病 5
1.2.2 实例2:结肠癌诊断 7
1.2.3 实例3:颈动脉狭窄 8
1.3 软件 9
1.4 本书没有包含的主题 9
第二章 诊断准确度评价指标 10
2.1 灵敏度与特异度 10
2.1.1 衡量诊断试验准确度的基本指标:实例2 12
2.1.2 具有连续型检查结果的诊断试验:人工心脏瓣膜实例 13
2.1.3 具有等级型检查结果的诊断试验:实例1 14
2.1.4 疾病患病率与疾病谱对灵敏度和特异度的影响 15
2.1.5 FPR和FNR与α和β的类比 15
2.2 灵敏度与特异度的综合指标 16
2.2.1 两个及以上诊断试验准确度比较时存在的问题:实例1 16
2.2.2 诊断试验结果的正确率 16
2.2.3 优势比和Youden指数 17
2.3 受试者工作特征曲线(ROC) 18
2.3.1 ROC曲线:人造心脏瓣膜和实例1 18
2.3.2 关于ROC曲线的假定 19
2.3.3 拟合的光滑ROC曲线 19
2.3.4 ROC曲线的优点 20
2.4 ROC曲线下面积 21
2.4.1 ROC曲线下面积的解释 21
2.4.2 RO C曲线下面积的大小 22
2.4.3 ROC曲线下面积:实例1 23
2.4.4 ROC曲线下面积的误解 23
2.5 固定FPR的灵敏度 25
2.6 部分ROC曲线下面积 26
2.7 似然比 27
2.7.1 关于似然比的三个实例 28
2.7.2 似然比的缺点 29
2.7.3 常规与非常规ROC曲线 30
2.8 真实诊断结果不是二分类情况的ROC分析 31
2.9 比较预测模型的C统计量和其他指标 33
2.10 多个病灶的检测与定位 34
2.11 阳性和阴性预测值、贝叶斯定理及实例2 36
2.11.1 贝叶斯定理 37
2.12 ROC曲线的最佳决策阈值 39
2.12.1 最大化分类的最优阈值 39
2.12.2 最小化成本的最优阈值 40
2.12.3 最佳决策阈值:以快速眼动为抑郁症生物标识的实例 41
2.13 多项试验的结果解释 41
2.13.1 平行联合诊断 41
2.13.2 序贯诊断试验 42
第三章 诊断准确度的研究设计 43
3.1 确定研究目标 44
3.2 识别目标患者总体 47
3.3 选择患者抽样计划 47
3.3.1 第一阶段:探索研究 48
3.3.2 第二阶段:挑战研究 48
3.3.3 第三阶段:临床研究 50
3.4 选择金标准 53
3.5 选择准确度指标 58
3.6 识别目标阅片者总体 61
3.7 选择阅片者抽样计划 61
3.8 数据收集计划 62
3.8.1 试验结果格式 62
3.8.2 阅片者研究的数据收集 63
3.8.3 阅片者培训 69
3.9 数据分析计划 70
3.9.1 统计学假设 70
3.9.2 协变量调整计划 71
3.9.3 报告试验结果 72
3.10 确定样本量 75
第四章 单一样本的参数估计与假设检验 76
4.1 二分类数据 77
4.1.1 灵敏度与特异度 77
4.1.2 阳性或阴性预测值 79
4.1.3 聚类二分类数据的灵敏度、特异度及预测值 81
4.1.4 似然比 83
4.1.5 优势比 85
4.2 有序数据 86
4.2.1 经验ROC曲线 87
4.2.2 拟合光滑曲线 87
4.2.3 固定假阳性率的灵敏度估计 91
4.2.4 ROC曲线下面积与部分面积(参数模型) 94
4.2.5 置信区间估计 96
4.2.6 ROC曲线下面积与部分面积的估计(非参数方法) 98
4.2.7 聚类数据的非参数分析 101
4.2.8 退化数据 102
4.2.9 参数、半参数以及非参数估计方法的选择 104
4.3 连续型数据 105
4.3.1 经验ROC曲线 106
4.3.2 拟合光滑ROC曲线:参数、半参数和非参数法 106
4.3.3 估计ROC曲线的置信带 111
4.3.4 ROC曲线下面积和部分面积:参数、非参数和半参数法 112
4.3.5 ROC曲线下面积的置信区间 113
4.3.6 固定假阳性率时的灵敏度与决策阈值 115
4.3.7 最佳工作点与决策阈值的选择 118
4.3.8 参数法、半参数法与非参数法的选择 121
4.4 ROC曲线下整体面积或部分面积为一指定值时的假设检验 122
4.4.1 检验MRA是否具有检测显著颈动脉狭窄的能力 123
第五章 两种诊断试验准确度的比较 124
5.1 二分类数据 125
5.1.1 灵敏度与特异度 125
5.1.2 聚类二分类数据的灵敏度与特异度 127
5.1.3 阳性或阴性预测值 129
5.2 有序与连续型数据结果 131
5.2.1 检验两条ROC曲线是否相等 132
5.2.2 比较特定点的ROC曲线 134
5.2.3 FPR在一定范围内变化时TPR的比较 136
5.2.4 ROC曲线下整体面积或部分面积的比较 138
5.3 等效性检验 143
5.3.1 实例3:检验ROC曲线面积是否相等 145
第六章 样本量的估计 146
6.1 单个诊断试验准确度的样本量估计 146
6.1.1 以灵敏度和特异度为评价指标的样本量估计方法:实例1 147
6.1.2 以ROC曲线下面积为评价指标的样本量估计方法:实例2 148
6.1.3 聚类数据的研究 150
6.1.4 ROC面积等于特定值时的检验假设 151
6.1.5 以固定FPR下的灵敏度为评价指标的样本量计算方法:实例2 151
6.1.6 以部分ROC曲线下面积为评价指标的样本量计算方法:实例2 153
6.2 以两种诊断方法准确度差值为评价标准的样本量估计方法 154
6.2.1 样本量计算软件 154
6.2.2 以两种方法灵敏度或特异度比较为评价标准的样本量估计方法:实例1 154
6.2.3 以两种方法阳性和阴性预测值为评价标准的样本量估计方法:实例1 156
6.2.4 两条ROC曲线下面积比较的样本量计算:实例2 157
6.2.5 聚类数据检验的样本量计算方法 159
6.2.6 以固定FPR时两个灵敏度差值为评价标准的样本量估计方法:实例2 160
6.2.7 以部分ROC曲线下面积比较为评价标准的样本量估计方法:实例2 161
6.3 评价两种诊断方法非劣效性或优效性的样本量估计方法 162
6.4 确定合适诊断阈值的样本量 165
6.5 多位阅片者研究的样本量估计方法 166
6.5.1 MRMC样本量估计软件 167
6.5.2 无预试验数据的MRMC样本量估计方法 167
6.5.3 有预试验数据的MRMC样本量估计方法 172
6.6 其他样本量计算公式 174
第七章 诊断准确度研究中的meta分析 175
7.1 目的 176
7.2 文献检索 176
7.2.1 文献检索:超声诊断周围动脉疾病的meta分析 180
7.3 纳入/剔除标准 180
7.3.1 纳入与剔除标准:超声诊断周围动脉疾病的meta分析 183
7.4 提取文献信息 183
7.4.1 数据提取:超声诊断周围动脉疾病的meta分析 185
7.5 统计分析 185
7.5.1 二分类数据 185
7.5.2 有序或者连续型数据 185
7.5.3 ROC曲线下的面积 195
7.5.4 其他方法 197
7.6 公开发表 197
7.6.1 结果展示:超声诊断周围动脉疾病的meta分析 198
第二部分 高级方法 201
第八章 独立数据的ROC回归分析 201
8.1 四项临床研究 202
8.1.1 MRA诊断颈动脉血管病变准确性的实例 202
8.1.2 胰腺癌生物标志物诊断准确性的实例 202
8.1.3 畸变产物耳声发射诊断准确性的实例 203
8.1.4 影像学诊断前列腺癌分期准确性的实例 203
8.2 连续型检查结果的回归模型 204
8.2.1 ROC曲线的间接回归模型 205
8.2.2 ROC曲线的直接回归模型 208
8.3 有序型检查结果的回归模型 219
8.3.1 潜在光滑ROC曲线的间接回归模型 220
8.3.2 潜在光滑ROC曲线的直接回归模型 222
8.3.3 实例分析:超声检查前列腺癌浸润情况 223
8.4 连续型检查结果调整协变量的ROC曲线 226
第九章 多位阅片者多项诊断试验的分析与评价研究 228
9.1 具有协变量的多项诊断试验效果比较研究 229
9.1.1 两项临床研究 229
9.1.2 有序型检查结果的间接回归模型 229
9.1.3 连续型检查结果的直接回归模型 234
9.2 多位阅片者多项诊断方法(MRMC)的评价研究 237
9.2.1 三种MRMC研究 238
9.2.2 MRM C研究的分析方法 238
9.2.3 间质疾病案例分析 248
9.2.4 MRMC研究分析方法的比较 249
9.3 多个诊断方法定位、诊断病灶的分析方法 250
9.3.1 LROC分析方法 250
9.3.2 FROC曲线分析方法 250
9.3.3 ROI分析方法 251
第十章 校正证实性偏倚的方法 253
10.1 实例 254
10.1.1 肝闪烁造影术 254
10.1.2 阿尔茨海默氏症筛检试验 254
10.1.3 实例:不确定性来源的发热 255
10.1.4 实例:胰腺癌分期的CT和MRI检查 255
10.1.5 实例:阿尔茨海默氏症(AD)国家协调中心的最小数据集 255
10.2 证实性偏倚的影响 256
10.3 具有二分类检查结果指标的单一诊断试验 257
10.3.1 MAR假定下证实性偏倚校正方法 257
10.3.2 无MAR假定的证实性偏倚校正方法 260
10.3.3 实例分析:继续肝闪烁造影术的分析评价 261
10.4 相关的二分类结果诊断试验准确度评价 263
10.4.1 无协变量的ML方法 263
10.4.2 实例分析:两种阿尔茨海默氏症筛检试验准确度比较 265
10.4.3 具有协变量的ML估计方法 265
10.4.4 实例分析:两个筛检痴呆的诊断试验效果评价 268
10.5 单一等级结果指标的诊断试验准确度评价 268
10.5.1 无协变量的ML方法 269
10.5.2 不确定性来源发热数据的分析 272
10.5.3 具有协变量的ML方法 273
10.5.4 实例分析:阿尔茨海默氏症筛检试验的分析 277
10.6 相关的等级结果指标诊断试验准确度评价 278
10.6.1 潜在光滑ROC曲线的加权估计方程方法 279
10.6.2 基于似然方法的ROC面积 285
10.6.3 实例分析:胰腺癌分期的CT和MRI诊断效果评价 287
10.7 连续型结果指标诊断试验准确度评价 288
10.7.1 MAR假定下ROC曲线和曲线下面积的估计 289
10.7.2 非MAR假定下ROC曲线和曲线下面积的估计 295
第十一章 校正非完美金标准偏倚的方法 301
11.1 实例 302
11.1.1 粪便化验诊断粪类原虫感染病 302
11.1.2 结核菌素试验诊断结核菌病 302
11.1.3 实例:二分类检查结果的X射线诊断胸膜增厚病 303
11.1.4 实例:生物检测诊断HIV 303
11.1.5 病理学家用有序型检查结果的试验诊断宫颈原位癌 303
11.1.6 等级和连续型检查结果的磁共振诊断颈内动脉狭窄 303
11.2 非完美金标准偏倚的影响 304
11.3 单一总体二分类结果的诊断试验 305
11.3.1 模型识别的条件 306
11.3.2 基于频率最大似然法估计可识别模型的参数 307
11.3.3 基于贝叶斯方法估计不可识别模型的参数 307
11.3.4 实例:类原虫感染病例的分析 310
11.4 G个总体单个二分类结果的诊断试验 311
11.4.1 估计方法 312
11.4.2 实例:肺结核实例 314
11.5 单一总体多个二分类终点指标的诊断试验 316
11.5.1 检验模型的可识别性 316
11.5.2 条件独立假设下的最大似然估计 317
11.5.3 实例:胸膜增厚病例的分析 318
11.5.4 可识别条件相关模型的最大似然法 319
11.5.5 HIV生物检测实例 323
11.5.6 条件相关模型的贝叶斯方法 327
11.5.7 颈动脉狭窄病例MRA诊断的实例分析 327
11.6 G个总体多个二分类终点指标的诊断试验准确度评价 328
11.6.1 CIA条件下的ML估计方法 328
11.6.2 无CIA条件下的ML估计方法 329
11.7 单一总体多个等级终点结果指标的诊断试验准确度评价 330
11.7.1 CIA条件下非参数ROC曲线估计方法 330
11.7.2 一些条件相关模型的ROC曲线估计方法 332
11.7.3 具有等级变量终点结果指标的宫颈原位癌诊断准确性评价实例分析 333
11.8 单一总体多种类型终点结果的诊断试验准确性评价 334
11.8.1 具有连续型终点结果指标的MRA诊断严重颈动脉狭窄病准确性分析 336
第十二章 Meta分析中的统计学分析方法 338
12.1 二分类结果指标 338
12.1.1 随机效应模型:超声诊断PAD的meta分析实例 339
12.2 等级或者连续型结果指标 340
12.2.1 随机效应模型 340
12.2.2 双变量方法 341
12.2.3 二分类回归模型 343
12.2.4 分层SROC曲线 344
12.2.5 其他方法 346
12.3 ROC曲线下面积 346
12.3.1 实例分析:经验贝叶斯法用于DST的meta分析 348
附录A实例介绍以及第八章 数据 349
附录B估计方差和置信区间的刀切法及bootstrap方法 380
参考文献 384
索引 414