1 绪论 1
1.1 简介 1
1.2 读者和范围 2
1.3 其他知识来源 3
1.3.1 术语 5
1.3.2 符号和术语的评述是很有帮助的 6
1.4 实例、数据和程序 6
1.5 小结 7
2 科研性质的临床试验 8
2.1 前言 8
2.1.1 基于病历的临床推理学 9
2.1.2 强调基于设计生成数据的统计推理学 11
2.1.3 临床推理以及统计学推理在研究中相结合 12
2.2 临床试验的正式定义 12
2.2.1 临床试验是近代临床与统计推理的结合 12
2.2.2 严格定义的临床试验 14
2.2.3 试验可能被误解 15
2.2.4 作为科学的临床试验 16
2.2.5 在临床研究范围中试验和统计方法的配合 17
2.3 临床试验使用的实际情况 18
2.3.1 临床试验的概述 18
2.3.2 临床试验可以提供确认性证据 18
2.3.3 临床试验是不方便的、麻烦的和可信的 19
2.3.4 用于做出一些临床推断的其他有效方法 20
2.3.5 在一些情况下临床试验是很难实施的 22
2.3.6 随机化研究可以在初期开始 23
2.4 小结 24
2.5 问题讨论 24
3 临床试验的伦理学考虑 25
3.1 前言 25
3.1.1 科学和伦理的目的 26
3.1.2 均势和不确定性原则 26
3.2 两重性 27
3.2.1 临床试验使二重性问题尖锐但不是该问题的起源 27
3.2.2 基因治疗悲剧阐明二重性 28
3.2.3 研究与实践的趋同性 28
3.2.4 希波克拉底誓言并未禁止临床试验 31
3.2.5 医生的多重角色 33
3.3 伦理准则的历史起源 35
3.3.1 纽伦堡会议对最坏情况处理的共识 35
3.3.2 美国的重大伦理过失 36
3.3.3 赫尔辛基宣言被广泛采纳 36
3.3.4 其他的国际指导原则 38
3.3.5 机构审查委员会的伦理学视察 39
3.3.6 与临床试验相关的伦理原则 39
3.4 当代基本原则 41
3.4.1 合作伙伴关系 42
3.4.2 科学价值 42
3.4.3 科学的有效性 42
3.4.4 受试者的公平选择 43
3.4.5 有利的风险-获益 43
3.4.6 独立审查 43
3.4.7 知情同意 44
3.4.8 对受试者的尊重 45
3.5 对方法学的思考 45
3.5.1 使用未经证实的治疗进行试验是不符合伦理的 46
3.5.2 伦理学考虑要点是试验设计的重要决定因素 48
3.5.3 已论证的特殊方法 49
3.6 专业行为 52
3.6.1 利益冲突 52
3.6.2 职业统计伦理学 53
3.7 小结 55
3.8 问题讨论 55
4 临床试验背景 57
4.1 前言 57
4.1.1 了解特定背景下临床试验的方法 58
4.1.2 背景内容 59
4.2 药物 60
4.2.1 药物是否具有特殊性 61
4.2.2 临床试验被广泛用于药物研究的原因 62
4.3 医疗器械 64
4.3.1 医疗器械临床试验的应用 64
4.3.2 医疗器械不同于药物吗 65
4.3.3 病例研究 67
4.4 预防 67
4.4.1 预防相比较于治疗二分法是过度工作 68
4.4.2 疫苗和生物制品 69
4.4.3 有关风险-效益的一个观点 70
4.4.4 预防性试验的方法学和概况 72
4.5 补充和替代医学 73
4.5.1 CAM和临床试验之间的重要矛盾 75
4.5.2 为什么临床试验没有在CAM中广泛应用 76
4.5.3 严格评价的一些原则 78
4.6 手术和技术依赖性治疗 79
4.6.1 为什么试验性研究没有在手术中得到广泛应用 80
4.6.2 为什么某些手术治疗不需要非常严格的研究设计 82
4.6.3 变异的来源 83
4.6.4 推断的困难 83
4.6.5 控制观察者偏差是有可能的 84
4.6.6 关于肺气肿手术试验的说明 86
4.7 对某些其他背景的简单回顾 91
4.7.1 筛检试验 91
4.7.2 诊断性试验 92
4.7.3 放射性治疗 93
4.8 小结 93
4.9 问题讨论 94
5 统计学的观点 95
5.1 前言 95
5.2 统计观点的差异 95
5.2.1 模型及参数 95
5.2.2 不同推断原理的统计学家分类 96
5.2.3 解决办法 97
5.2.4 一致的观点 97
5.3 频率论派 99
5.3.1 二项式的案例研究 100
5.3.2 其他观点 101
5.4 贝叶斯推理 101
5.4.1 先验分布的选择是争议之源 102
5.4.2 二项式的案例研究 103
5.4.3 贝叶斯推断是不同的 105
5.5 似然论 106
5.5.1 二项式的案例研究 106
5.5.2 基于似然性的研究设计 107
5.6 补充的考虑 108
5.6.1 统计程序不是标准化的 108
5.6.2 关于统计存在的争议 108
5.7 小结 110
5.8 问题讨论 110
6 临床试验设计 111
6.1 前言 111
6.1.1 实验是一个相对简单的实验设计 111
6.1.2 临床试验的设计是结论推断的关键 112
6.2 试验设计的目标 113
6.2.1 控制随机误差和偏倚是设计的目标 113
6.2.2 概念简单化也是一个目标 113
6.2.3 主观性的固有化 114
6.2.4 水蛭个案分析 115
6.3 试验术语 115
6.3.1 传统认知上药物研发的四种试验设计 116
6.3.2 描述性的术语更广泛,并认可更多的临床试验类型 116
6.4 设计的概念 117
6.4.1 设计的基础是观察和理论 117
6.4.2 女性健康研究得到的教训 119
6.4.3 试验使用的3个设计要素 120
6.5 审视试验设计的发展进程 125
6.5.1 早期研究 125
6.5.2 中期研究 126
6.5.3 后期临床试验 129
6.6 特殊的试验设计问题 132
6.6.1 安慰剂 132
6.6.2 等效和非劣效 134
6.6.3 效果的不一致性 135
6.6.4 随机中断 136
6.6.5 为解决特殊问题需要混合设计 136
6.6.6 临床试验不能达到的一些目的 137
6.7 临床方案文件的重要性 138
6.7.1 临床试验方案有很多功能 138
6.7.2 背离临床试验方案规定是常见的 139
6.7.3 试验方案具有结构性、逻辑性和完整性 140
6.8 小结 144
6.9 问题讨论 144
7 随机误差和偏倚 146
7.1 前言 146
7.2 随机误差 148
7.2.1 假设检验vs显著性检验 148
7.2.2 假设检验存在两类随机误差 148
7.2.3 Ⅰ类误差相对容易控制 150
7.2.4 置信区间的特性是相似的 150
7.2.5 使用单侧或双侧假设检验不是正确的问题 150
7.2.6 P值对Ⅰ类误差进行定量 151
7.2.7 Ⅱ类误差取决于所感兴趣的临床差异 152
7.2.8 事后的把握度计算没有益处 153
7.3 临床偏倚 154
7.3.1 随机误差和偏倚的相对大小非常重要 154
7.3.2 偏倚由多种来源产生 154
7.3.3 控制结构性偏倚在概念层面很简单 157
7.4 统计偏倚 160
7.4.1 对某些统计偏倚可进行纠正 160
7.4.2 无偏倚不是对统计估计所希望的唯一属性 161
7.5 小结 162
7.6 问题讨论 162
8 目的和结果 164
8.1 前言 164
8.2 目的 165
8.2.1 预测是常见的目的 165
8.2.2 选择也能成为目的 165
8.2.3 目的需要测量的各种标度 166
8.3 结果 166
8.3.1 结果和预测的结合 166
8.3.2 评估结果的标准 167
8.3.3 推荐“硬指标”或客观结果 167
8.3.4 结果可以被定量或定性 168
8.3.5 测量是可靠的有效的结果 168
8.3.6 试验结果的计数 168
8.3.7 有序分级通常被用来表示严重程度或毒性 169
8.3.8 无序分级 169
8.3.9 二分类变量是简单的归纳 169
8.3.10 事件次数可能被删失 170
8.3.11 事件数据需要两个数值 171
8.3.12 删失和失访不相同 172
8.3.13 生存时间以及疾病进展 173
8.3.14 以综合结论代替删失 173
8.3.15 良性事件使删失复杂化 174
8.4 替代结果 174
8.4.1 替代结果是疾病特异性的 175
8.4.2 替代结果可以使试验更有效率 177
8.4.3 替代结果有显著的缺陷 178
8.5 一些特殊终点 180
8.5.1 临床试验中重复测量并不常见 180
8.5.2 病人报告结果 180
8.6 小结 181
8.7 问题讨论 182
9 转化性临床试验 183
9.1 前言 183
9.1.1 转化性试验的设置和结果 184
9.1.2 特点和定义 184
9.1.3 小型并不意味转化性研究 185
9.2 从转化性试验获取的信息 185
9.2.1 参数不确定性与结果不确定性 186
9.2.2 熵 186
9.2.3 经验熵偏倚 187
9.2.4 变异 188
9.2.5 转化性试验的样本量 188
9.3 小结 190
9.4 问题讨论 191
10 剂量探索设计 192
10.1 前言 192
10.2 原理 193
10.2.1 什么是“Ⅰ期” 193
10.2.2 剂量-安全性与剂量-疗效的区别 194
10.2.3 剂量最佳化是一个设计方面的概念 195
10.2.4 一般性剂量探索问题尚未得到解决 196
10.2.5 不可避免的主观性 197
10.2.6 样本量是剂量探索研究的一个结果 197
10.2.7 理想的剂量探索试验设计 197
10.3 Fibonacci和相关的剂量范围 198
10.3.1 一些历史上的设计 199
10.3.2 典型设计 199
10.3.3 可以计算的运行特性 200
10.3.4 改良、优势和劣势 202
10.4 剂量探索设计 203
10.4.1 数学模型辅助推论 203
10.4.2 连续重新评估法 204
10.4.3 药物代谢动力学测量改善CRM剂量递增 206
10.4.4 出色CRM设计的争议 207
10.4.5 CRM举例 207
10.4.6 随机化能否应用于Ⅰ期或TM试验 208
10.4.7 Ⅰ期数据的其他用途 208
10.5 更多有关剂量探索的一般问题 208
10.5.1 剂量探索不总是一维的 209
10.5.2 双重剂量探索 210
10.5.3 同时优化安全性和药效 212
10.6 小结 214
10.7 问题讨论 214
11 样本量与检验效能 215
11.1 概述 215
11.2 原理 216
11.2.1 什么是精度 216
11.2.2 什么是检验效能 217
11.2.3 什么是证据 218
11.2.4 样本量与检验效能的计算是近似的 219
11.2.5 检验效能精度与样本量间的关系是二次型的 219
11.3 早期开发试验 219
11.3.1 转化性试验 219
11.3.2 剂量探索试验 221
11.4 安全性与有效性试验 221
11.4.1 简单的安全性与有效性试验设计可以使用固定的样本量 222
11.4.2 确切的二项可信限是有用的 223
11.4.3 贝叶斯二项式分布的可信区间 225
11.4.4 贝叶斯方法可以利用先验信息 227
11.4.5 比例的以似然为基础的方法 228
11.4.6 均数的可信区间为样本量的计算提供了方法 229
11.4.7 事件发生率的可信区间能决定样本量 230
11.4.8 基于似然法的事件发生率。 232
11.4.9 无效的或不安全的治疗应该尽早终止 233
11.4.10 二阶段设计是高效的 233
11.4.11 随机化的安全性与有效性试验 235
11.5 比较试验 238
11.5.1 如何选择Ⅰ型和Ⅱ型错误率 238
11.5.2 用t检验比较是一个好的学习例子 238
11.5.3 基于似然的方法 240
11.5.4 二分类反应较复杂 241
11.5.5 风险比较产生类似方程 244
11.5.6 参数和非参数的方程是相互联系的 245
11.5.7 允许不平衡的治疗分配 246
11.5.8 一个简单的入组模型也能被纳入 247
11.5.9 非劣效性 249
11.6 ES试验 253
11.6.1 罕见事件的柏松分布模型 253
11.6.2 柏松率的似然方法 255
11.7 其他考虑 256
11.7.1 整群随机化需要增加样本量 256
11.7.2 简单的成本优化 256
11.7.3 针对非依从性提高样本大小 257
11.7.4 模拟的寿命表是一简单的设计工具 259
11.7.5 预后因素研究的样本量 260
11.7.6 计算机程序简化计算 260
11.7.7 模拟是一个有效和灵活的设计方案 261
11.7.8 检验效能曲线是S形的 261
11.8 小结 262
11.9 问题讨论 263
12 研究人群 266
12.1 前言 266
12.2 定义研究人群 267
12.2.1 有效抽样 267
12.2.2 可能选择有较好预后的个体作为受试者 268
12.2.3 用入选和排除标准定义研究人群 271
12.2.4 定量选择标准和精确度不准 272
12.2.5 对照试验对入选标准不敏感 273
12.3 预期获益 274
12.3.1 采用导入期 275
12.3.2 入组的定量估计 275
12.4 容纳性、代表性、交互性 277
12.4.1 容纳性是一个有价值的目标 277
12.4.2 妨碍参加试验的障碍 278
12.4.3 疗效试验和效果试验 279
12.4.4 表现:政治因素在科学中的阻碍作用 280
12.5 小结 284
12.6 问题讨论 285
13 治疗分配 286
13.1 前言 286
13.2 随机化 287
13.2.1 随机化可控制未知因素的影响 288
13.2.2 随意分配不是随机化 289
13.2.3 简单随机化可导致不均衡 289
13.3 限制性随机化 290
13.3.1 区组随机化可提高均衡性 290
13.3.2 区组和分层均衡预后因素 291
13.3.3 有关区组的其他问题 293
13.4 动态随机化 294
13.4.1 瓮法也可改善均衡 294
13.4.2 最小化法可获得严格的均衡性 295
13.4.3 胜方分配规则 295
13.5 关于随机化的其他问题 297
13.5.1 随机化的管理 297
13.5.2 利用计算机产生伪随机数字 298
13.5.3 随机化可控制Ⅰ类错误 299
13.6 不对称治疗分配 302
13.6.1 试验组可能更加有效 302
13.6.2 各治疗之间的成本差异很大 303
13.6.3 方差不齐 303
13.7 知情同意之前进行随机化 303
13.8 小结 304
13.9 问题讨论 305
14 治疗效果监查 306
14.1 前言 306
14.1.1 监查的动机 307
14.1.2 责任监查的组成部分 307
14.1.3 出于多种原因,试验可以终止 308
14.1.4 在做出终止决定的过程中存在对立 309
14.2 试验监查中的管理问题 310
14.2.1 单一中心试验的监查依靠定期的研究者报告 310
14.2.2 TEMC的组成和组织 311
14.2.3 完全客观是与伦理相悖的 314
14.3 与数据相关的组织问题 316
14.3.1 TEMC评价基线可对比性 316
14.3.2 TEMC对患者增加和试验完成的预期时间进行审查 316
14.3.3 数据的及时性和报告的滞后 316
14.3.4 数据质量是TEMC的主要关注点 317
14.3.5 TEMC审查安全性和毒性数据 318
14.3.6 TEMC对有效性差异进行评价 318
14.3.7 TEMC应该着眼于若干特定的实际问题 318
14.3.8 TEMC机制具有潜在的缺点 319
14.4 监查所用的统计方法 320
14.4.1 评价不完全证据的若干方法 320
14.4.2 似然法 322
14.4.3 贝叶斯方法 326
14.4.4 决策理论法 328
14.4.5 频率论法 329
14.4.6 其他监查手段 334
14.4.7 某些软件 337
14.5 小结 337
14.6 问题讨论 338
15 受试者和事件的计算 340
15.1 前言 340
15.2 某些特殊的数据缺陷的实质 341
15.2.1 评价标准的方法错误 341
15.2.2 统计方法能够处理某些类型的数据缺失 342
15.2.3 方案违背普遍存在 345
15.3 不能坚持治疗 346
15.3.1 意向性治疗是纳入的方针 346
15.3.2 冠心病药物项目研究结果启示基于不坚持排除标准的缺陷 346
15.3.3 统计研究支持ITT分析法 347
15.3.4 试验可以看作为对治疗策略的检验 348
15.3.5 ITT分析并非总是适用 348
15.3.6 试验推论依赖于试验设计 349
15.4 小结 350
15.5 问题讨论 350
16 临床疗效评价 351
16.1 前言 351
16.1.1 结构有助于数据解释 352
16.1.2 风险评估是简单有用的 353
16.2 剂量发现和药代动力学试验 353
16.2.1 药代模型对于分析剂量发现试验是必需的 353
16.2.2 二室模型简单实用 354
16.2.3 药动学模型被用来“模型拟合” 356
16.3 安全性和有效性研究 358
16.3.1 间皮瘤临床试验案例 358
16.3.2 二分类因素的风险摘要 359
16.3.3 生存期的非参数估计是稳健的 360
16.3.4 生存期的参数(指数)摘要是有效的 363
16.4 比较有效性试验(Ⅲ期) 364
16.4.1 本章中比较有效性试验举例 365
16.4.2 连续测量估计治疗差异 367
16.4.3 基线测量可以增加精确性 367
16.4.4 非参数生存期比较 368
16.4.5 风险比(或危险比)和置信区间是临床有用的数据总结 370
16.4.6 统计模型是有用的工具 371
16.4.7 p值并不是测量证据 373
16.5 通过支持区间强化证据 374
16.5.1 支持区间建立在似然函数 374
16.5.2 根据任何结果利用支持区间 375
16.6 分析的特殊方法 376
16.6.1 基于重复取样的导入法 377
16.6.2 某些临床问题需要其他特别的分析方法 378
16.7 探索性或假设生成分析 381
16.7.1 临床试验数据用于探索性分析 381
16.7.2 多重检验多个Ⅰ类错误 381
16.7.3 多重性的类型 382
16.7.4 亚组分析带有错误倾向 382
16.8 小结 385
17 预后因子分析 391
17.1 前言 391
17.1.1 研究预后因子有广泛的用途 392
17.1.2 预后因子可能恒定或者随时间而改变 393
17.2 以模型为基础的方法 393
17.2.1 模型将理论和数据整合在一起 394
17.2.2 测量尺度(编码)可能很重要 394
17.2.3 采用灵活的协变量模型 395
17.2.4 下一步是建立简约模型 396
17.2.5 不完全定义模型可能产生有偏倚的估计值 401
17.2.6 研究二阶效应(交互效应) 401
17.2.7 PFAs分析有助于描述风险组 402
17.2.8 PFAs分析的检验效能和样本大小 406
17.3 比较试验的调整分析 406
17.3.1 应该调整什么 407
17.3.2 会发生什么情况 408
17.4 不以模型为基础的PFAS的分析方法 410
17.4.1 递归分区使用二分法 411
17.4.2 神经网络用作模式识别 411
17.5 小结 413
17.6 问题讨论 413
18 报告和署名 415
18.1 前言 415
18.2 报告的总体要点 416
18.2.1 报告的一致性有助于理解 417
18.2.2 文献质量 417
18.2.3 同行评议是业内唯一的选择 418
18.2.4 发表偏倚可扭曲基于文献的印象 419
18.3 临床试验报告 420
18.3.1 总体考虑 422
18.3.2 采用完整的CTE报告提纲 425
18.4 署名 429
18.4.1 作者确定和排序 429
18.4.2 署名的责任 430
18.4.3 署名模式 431
18.4.4 其他实际问题 432
18.5 结果发布的可选择途径 433
18.6 小结 433
18.7 问题讨论 434
19 析因设计 435
19.1 前言 435
19.2 析因设计的特征 436
19.2.1 交互作用或效率,但两者不都是同时的。 436
19.2.2 根据结构定义析因设计 436
19.2.3 析因设计可以有效的设计 438
19.3 交互作用 439
19.3.1 析因设计是研究交互作用的唯一方法 439
19.3.2 交互作用取决于治疗指数的大小 440
19.3.3 主要效果的解释取决于交互作用 440
19.3.4 可以采用线性模型来分析 441
19.4 析因设计的例子 442
19.5 局部的,分层的,未完成的析因设计 444
19.5.1 当不存在交互作用时采用局部的析因设计 444
19.5.2 不完整的析因设计中的特殊问题 445
19.6 小结 445
19.7 问题讨论 445
20 交叉设计 447
20.1 前言 447
20.1.1 给予多种处理的其他方式并非交叉设计 448
20.1.2 治疗阶段可能被随机分配 448
20.2 优点和缺点 449
20.2.1 交叉研究可增加精确性 449
20.2.2 交叉设计可改善患者招募工作 450
20.2.3 残留效应是一个潜在问题 450
20.2.4 脱落可产生严重影响 451
20.2.5 相对于平行分组设计而言分析更为复杂 451
20.2.6 交叉设计所需的前提条件 451
20.3 分析 452
20.3.1 可基于单元均值模型进行分析 453
20.3.2 其他分析问题 457
20.3.3 典型案例分析 457
20.4 小结 458
20.5 问题讨论 459
21 荟萃(META)分析 460
21.1 前言 460
21.2 荟萃分析方法的概要 462
21.2.1 荟萃分析成为必要的先决条件 462
21.2.2 很多研究存在潜在相关性 462
21.2.3 选择分析 464
21.2.4 计划统计分析 464
21.2.5 汇总观察和期望的数据 465
21.3 其他问题 467
21.3.1 荟萃分析的实践和理论的局限性 467
21.3.2 荟萃分析的经验教训 467
21.4 小结 468
21.5 问题讨论 468
22 临床研究中的行为不端和欺诈 469
22.1 前言 469
22.1.1 真实性和责任性极其重要 470
22.1.2 欺诈和行为不端难以进行界定 471
22.2 研究行为 474
22.2.1 行为不端不常发生 475
22.2.2 行为不端的原因 476
22.3 对行为不端采用的常规方法 476
22.3.1 政府 476
22.3.2 机构 478
22.3.3 有问题的方面 479
22.4 某些行为不端案例的特征 480
22.4.1 Darsee案例 480
22.4.2 Poisson(NSABP)案例 482
22.4.3 德国最近发生的两个案例 485
22.5 教训 486
22.5.1 识别欺诈或行为不端 486
22.5.2 从行为不端案例可获得的其他教训 488
22.6 临床研究人员的责任 489
22.6.1 总体责任 489
22.6.2 与IND有关的其他责任 490
22.6.3 申办方的责任 490
22.7 小结 491
22.8 问题讨论 492
附录A 数据和程序 493
A.1 介绍 493
A.2 数据 493
A.3 编程 493
A.3.1 功效和样本量程序 494
A.3.2 区组分层随机 495
A.3.3 不间断再评价方法(CRM) 495
A.4 MATHEMATICA代码 495
附录B 符号和术语 496
B.1 前言 496
B.2 符号 496
B.2.1 希腊字母 496
B.2.2 罗马字 497
B.2.3 其他符号 498
B.3 术语和概念 499
附录C 缩略语 512
附录D 纽伦堡法案 516
附录E 赫尔辛基宣言(2008版) 517
E.1 前言 517
E.2 医学研究的基本原则 518
E.3 与医疗相结合的医学研究应遵循的附加原则 520
附录F 美国国立癌症研究所数据与安全监查政策 521
F.1 前言 521
F.2 数据与安全监查的责任 521
F.3 数据与安全监查委员会的要求 522
F.4 DSMB的职责 522
F.5 成员 522
F.6 会议 522
F.7 来自于DSMB的建议 523
F.8 结果数据的发布 523
F.9 保密程序 524
F.10 利益冲突 524
附录G 美国国立卫生研究院数据和安全监管政策 525
G.1 背景 525
G.2 数据与安全监查原则 526
G.3 实践和执行问题:监督监查 526
G.4 研究所和研究中心(IC)的责任 526
G.5 执行对数据和安全的监查 526
G.6 监查操作实例 527
附录H 英国皇家统计学会行为规范 529
H.1 前言 529
H.2 宪法权利 529
H.3 职业行为的准则 529
H.3.1 公众利益 529
H.3.2 对雇主和客户的义务 530
H.3.3 对同行的义务 530
H.3.4 纪律程序 531
参考文献 532
参考文献作者索引 586
主题词中英对照 606