1 总论 1
1.1 大数据的概念、发展背景及现状 1
1.1.1 大数据的概念与特征 1
1.1.2 生物大数据的概念与类型 2
1.1.3 我国生物大数据的现状与前景 2
1.2 生物大数据与精准医学 3
1.2.1 精准医学的定义 3
1.2.2 美国精准医学的发展 4
1.2.3 其他国家精准医学的发展 5
1.2.4 我国精准医学的发展 6
1.3 生物大数据研究面临的问题与挑战 7
1.3.1 高维基因组学数据的处理与标准化 7
1.3.2 健康医疗数据的标准化 9
1.3.3 非结构化数据的转换与分析 10
1.3.4 基因组数据与临床表型数据的集成与融合 10
1.3.5 提高生物标志物的临床转化应用性需要标准化的分析流程 12
1.3.6 生物大数据的高效存储与共享对现有网络技术提出了新的要求 13
1.3.7 生物大数据的伦理 15
参考文献 16
2 大数据研究的共性方法论 18
2.1 非结构化数据的转换与处理 18
2.1.1 概述 18
2.1.2 数据模型 19
2.1.3 分布式存储 20
2.1.4 并行处理模型 20
2.2 人-机交互技术与数据可视化 21
2.2.1 人-机交互技术 21
2.2.2 大数据可视化 21
2.2.3 基因组的可视化 22
2.2.4 分子结构的可视化 33
2.3 深度学习 35
2.3.1 概述 35
2.3.2 深度学习的基本思想 37
2.3.3 深度学习开发框架 40
2.4 大数据的传输与信息安全 42
2.4.1 概述 42
2.4.2 数据高速传输技术 43
2.4.3 数据传输中的隐私与信息安全 46
参考文献 49
3 健康人群队列研究 51
3.1 国际大型队列的现状与发展历程 51
3.2 中国大型队列现状 54
3.2.1 泰州队列的数据采集与管理 56
3.2.2 队列基线调查数据采集 57
3.2.3 队列随访数据采集 60
3.2.4 队列数据清理 62
3.2.5 队列数据信息平台建立与管理 63
3.2.6 大型队列数据的共享与应用 65
3.3 大型队列数据在精准医学时代的挑战与机遇 69
3.3.1 大型队列数据面临的挑战 69
3.3.2 大型队列数据面临的机遇 70
参考文献 71
4 临床大数据及其标准化 74
4.1 临床大数据的来源 74
4.2 临床大数据的标准化 75
4.2.1 ICD-10标准 75
4.2.2 HL7卫生信息交换标准 78
4.2.3 其他数据标准 80
4.3 临床大数据的整合利用 81
4.3.1 美国i2b2及相关研究 81
4.3.2 欧洲EHR4CR研究项目 84
参考文献 86
5 组学大数据及其标准化 87
5.1 基因芯片与测序技术质量控制研究计划 88
5.1.1 基因芯片技术质量控制计划MAQC-Ⅰ 88
5.1.2 基因芯片技术质量控制计划MAQC-Ⅱ 90
5.1.3 基因芯片技术质量控制计划MAQC-Ⅲ/SEQC 93
5.1.4 测序数据质量控制计划MAQC-Ⅳ 97
5.2 外源RNA对照联盟 97
5.3 瓶中基因组联盟 98
5.4 基因组数据共享项目 98
参考文献 100
6 大数据的挖掘和融合分析 103
6.1 全基因组关联分析 103
6.1.1 概述 103
6.1.2 GWAS关联性分析方法 105
6.1.3 全表型组关联分析方法 112
6.1.4 多个数据集的整合分析与挖掘 115
6.2 同种组学数据整合挖掘 118
6.2.1 概述 118
6.2.2 组学数据的批次效应 119
6.2.3 多个WGS、WES数据集的整合分析与挖掘 121
6.2.4 多个RNA-Seq数据集的整合分析与挖掘 122
6.3 多种组学数据整合挖掘 125
6.3.1 概述 125
6.3.2 全基因组、转录组数据整合挖掘的方法 125
6.3.3 其他多种组学数据整合挖掘的方法 126
6.4 针对个体的动态组学数据的整合挖掘 127
6.4.1 概述 127
6.4.2 整合性个人组学图谱研究的步骤 128
6.4.3 整合性个人组学图谱动态组学研究方法 128
6.4.4 整合性个人组学图谱数据分析流程 129
6.5 组学大数据的功能分析 131
参考文献 135
7 精准医学知识库 141
7.1 精准医学中的术语集与本体 142
7.1.1 医学主题词表(MeSH) 143
7.1.2 基因本体(GO) 143
7.1.3 统一医学语言系统(UMLS) 144
7.2 精准医学的常见遗传变异资源 145
7.2.1 HGVS 145
7.2.2 dbSNP 147
7.2.3 dbVar与ClinVar 148
7.2.4 COSMIC 151
7.3 精准医学文献资源 153
7.3.1 PubMed 153
7.3.2 PMC 154
7.4 精准医学与生物信息学 155
7.4.1 常见基因组资源 155
7.4.2 常见转录组资源 156
7.4.3 常见表观遗传和表型资源 157
参考文献 158
8 精准医学临床决策支持系统 160
8.1 临床决策支持系统的技术基础 160
8.1.1 融合医学逻辑与诊疗过程的多层次知识表达技术 160
8.1.2 异构临床数据的映射与转换 161
8.1.3 针对医学模糊问题的推理技术 164
8.2 精准医学临床路径实现技术 166
8.2.1 临床路径实现与分析优化技术 168
8.2.2 临床路径挖掘技术 172
8.2.3 临床特征筛选技术 172
8.2.4 疾病有监督学习方法 173
8.2.5 临床路径管理与评估技术 175
8.3 智能化精准医学诊疗用药系统 180
8.3.1 基因型、表型和药物知识体系构建 180
8.3.2 基于分子诊断信息的精准用药系统 182
8.3.3 智能化精准诊疗服务平台 185
8.4 IBM“沃森肿瘤”在精准医学中的应用 188
8.4.1 IBM“沃森”应用于临床治疗及临床试验 188
8.4.2 IBM“沃森肿瘤”助力癌症治疗 190
8.4.3 IBM“沃森”的展望 193
参考文献 194
9 遗传病与精准医学 197
9.1 遗传病概述 197
9.1.1 染色体病 198
9.1.2 单基因遗传病 198
9.1.3 多基因遗传病 199
9.1.4 人类基因组与遗传病 200
9.2 单基因遗传病研究策略 201
9.2.1 样品筛选 201
9.2.2 研究方法 204
9.2.3 公共数据库 210
9.3 精准医学在遗传病研究中的应用 212
9.3.1 散发病例分析 212
9.3.2 家系分析 213
9.3.3 临床应用 214
9.4 总结与展望 215
参考文献 216
10 药物基因组学与精准用药 219
10.1 概述 219
10.1.1 药物基因组学 219
10.1.2 药物基因组学的形成与发展 220
10.1.3 药物基因组学应用现状与前景 222
10.2 药物效应相关基因 225
10.2.1 药物代谢酶 225
10.2.2 药物转运体 229
10.2.3 其他药物作用靶点 231
10.3 药物反应中的种族差异 233
10.4 临床药物基因组学应用实例 234
10.4.1 华法林 234
10.4.2 氯吡格雷 238
10.4.3 硫唑嘌呤 238
10.4.4 阿巴卡韦 239
10.5 药物基因组学研究方法和资源 240
10.5.1 研究方法 240
10.5.2 药物基因组学知识库 240
参考文献 243
11 基于组学大数据的肿瘤精准医学 246
11.1 概述 246
11.2 乳腺癌精准医学 250
11.2.1 概述 250
11.2.2 乳腺癌易感基因的遗传风险评估与管理 250
11.2.3 乳腺癌的分子分型 251
11.2.4 乳腺癌的诊断 251
11.2.5 基于个体基因组的乳腺癌治疗 252
11.3 肺癌精准医学 253
11.3.1 概述 253
11.3.2 非小细胞肺癌的分子诊断与治疗 255
11.3.3 基于多组学数据的非小细胞肺癌研究 257
11.4 食管癌精准医学 260
11.4.1 概述 260
11.4.2 基于个体基因组的食管癌诊断与治疗 260
11.4.3 基于个体基因组的食管癌研究进展 261
11.5 基于多组学数据的临床诊疗 265
11.5.1 癌症患者组织样本的测序 266
11.5.2 测序数据的分析 266
11.5.3 医学知识库系统 267
11.5.4 辅助临床的注释报告 268
参考文献 269
12 HLA基因多态性与药物不良反应 274
12.1 概述 274
12.1.1 HLA与免疫反应 274
12.1.2 HLA基因多态性的检测方法 279
12.1.3 药物不良反应 281
12.2 HLA基因多态性与药物不良反应的关联 283
12.2.1 HLA相关药物不良反应的机制 283
12.2.2 关联数据库HLADR的建立 284
12.2.3 对现有数据的分析和讨论 288
12.3 预测HLA与多肽的结合 290
12.3.1 HLA与多肽结合的研究意义 290
12.3.2 HLA与多肽结合的测量和数据库 291
12.3.3 基于计算方法预测HLA和多肽的结合 292
12.4 预测HLA基因多态性与药物不良反应的关联 299
12.4.1 用分子对接方法预测HLA与药物的结合 299
12.4.2 用分子动力学模拟方法预测HLA与药物的结合 301
12.4.3 挑战和展望 303
参考文献 304
13 基于大数据的新药研发 312
13.1 概述 312
13.1.1 药物研发流程的局限与瓶颈 312
13.1.2 生物大数据在药物研发中的潜在应用 314
13.2 生物大数据在药物靶点发现中的应用 316
13.2.1 概述 316
13.2.2 化学基因组学与药物靶点发现 317
13.2.3 基因表达谱与药物靶点发现 318
13.2.4 基于生物网络推理方法的药物靶点发现 319
13.2.5 肿瘤体外药敏筛选基因组学平台及其在药效标志物研究中的应用 320
13.3 生物大数据在药物重定位中的应用 322
13.3.1 药物重定位概述 322
13.3.2 基于生物医学大数据的药物重定位研究 323
13.3.3 药物重定位研究实例 324
13.4 伴随新药临床试验的药物基因组学研究 328
13.4.1 大数据时代的新药临床试验 328
13.4.2 NIH启动的创新临床试验方法 329
参考文献 331
14 精准医学与美国FDA监管作用 335
14.1 概述 335
14.1.1 美国精准医学计划 335
14.1.2 FDA在精准医学计划中的监管作用 336
14.1.3 FDA相关研究介绍 336
14.2 基因组学数据递交计划 337
14.2.1 FDA对药物基因组学研究的监管 337
14.2.2 VGDS的具体内容 339
14.2.3 VGDS的总结与展望 341
14.3 生物标志物质量认证项目 342
14.3.1 项目简介 342
14.3.2 生物标志物质量认证的内容 343
14.3.3 生物标志物质量认证的路线图 345
14.3.4 生物标志物认证项目的总结与展望 350
14.4 NGS数据递交 351
14.4.1 指导原则的必要性 351
14.4.2 NGS数据分析的一般流程 352
14.4.3 基于NGS的体外诊断数据分析及解读数据库指南 354
14.5 精准FDA 359
14.5.1 系统简介 359
14.5.2 数据共享 360
14.5.3 工具共享 360
14.5.4 数据比较 360
参考文献 361
索引 362