第1章 导言 1
1.1 化学的研究领域 1
目录 1
1.2 化学家的基本问题 2
1.3 化学信息学的范畴 4
1.4 化学信息学的学习 6
1.5.2 数据 8
1.5.1 目标物的表征 8
1.5 主要任务 8
1.6.1 结构数据库 9
1.6 化学信息学的历史 9
1.5.3 学习 9
1.6.5 化学反应与合成设计 10
1.6.4 结构解析 10
1.6.2 定量结构与活性关系 10
1.6.3 分子模拟 10
1.7 本书的内涵 11
1.8 化学信息学的教学 12
2.1 引言 13
第2章 化合物的表示法 13
2.2 化学命名 15
2.2.3 (无机)化合物的经验式的描述 16
2.2.2.1 元素的描述 16
2.2.1 化学命名的发展 16
2.2.2 化学元素的表达 16
2.2.5 无机和有机化合物的系统命名 17
2.2.4.1 现行表示法 17
2.2.3.1 现行表示法 17
2.2.4 有机化合物的经验式表示法 17
2.3.1 Wiswesser线性符号表示法 19
2.3 线性符号表示法 19
2.3.2 ROSDAL 21
2.3.1.1 应用 21
2.3.3 SMILES编码 22
2.3.2.1 应用 22
2.3.4 Sybyl线性符号表示法 24
2.3.3.1 应用 24
2.3.4.1 应用 25
2.4.1 图论 26
2.4 结构的编码 26
2.4.1.1 图论基础 27
2.4.2.1 邻接矩阵 29
2.4.2 矩阵表达 29
2.4.2.5 键矩阵 30
2.4.2.4 关联矩阵 30
2.4.2.2 距离矩阵 30
2.4.2.3 原子连接矩阵 30
2.4.2.6 键-电子矩阵 31
2.4.3 连接表 33
2.4.4 化学结构的输入与输出 35
2.4.5 标准的结构交换格式 37
2.4.6 指南:Molfile和SDfile 39
2.4.6.1 Molfile的结构 40
2.4.6.3 库和工具箱 43
2.4.6.2 SDfile的结构 43
2.5.1 环识别 45
2.5 结构信息的表达 45
2.5.1.2 所有的环 46
2.5.1.1 最小环数目 46
2.5.1.3 最小基本环 47
2.5.2.1 结构异构体和同构 48
2.5.2 表达的无歧义性和惟一性 48
2.5.2.2 标准化 49
2.5.3 摩根算法 50
2.5.3.1 指南:摩根算法 51
2.6.1 用连接表来表达分子结构的不足 53
2.6 连接表的不足 53
2.6.2.3 共轭性和芳香性 54
2.6.2.2 简单的单键和双键 54
2.6.2 用电子体系表达分子结构 54
2.6.2.1 基本概念 54
2.6.2.6 带电物质和自由基 56
2.6.2.5 非键轨道 56
2.6.2.4 π体系的正交性 56
2.6.2.9 有机金属化合物 57
2.6.2.8 缺电子化合物 57
2.6.2.7 电离状态 57
2.7 化合物结构的特殊标记 58
2.6.3 从VB表达中产生RAMSES 58
2.7.2 碎片编码 59
2.7.1 Markush结构 59
2.7.3.1 Hashed指纹 60
2.7.3 指纹 60
2.7.2.1 应用 60
2.7.4 Hash编码 61
2.8.1 基本概念 62
2.8 立体化学的表征 62
2.7.4.1 应用 62
2.8.2 分子手性和构型异构体的表征 64
2.8.2.1 手性的探测与表征 66
2.8.3 排序列表 67
2.8.5 置换说明 68
2.8.4 旋转序列 68
2.8.6 Molfile和SMILES中的立体化学 69
2.8.6.1 Molfile中的立体化学 70
2.8.6.2 SMILES中的立体化学 71
2.8.7 指南:通过置换基团来解决立体化学问题 72
2.8.7.1 四价碳的立体化学 73
2.8.7.2 双键的立体化学 75
2.9.1 分层介绍化学结构表征 77
2.9 三维结构的表征 77
2.9.2 三维结构的表征 78
2.9.3 为什么需要三维结构以及怎样获得三维结构 80
2.9.4 三维结构的自动生成 82
2.9.5 获取所有构象:何谓构象分析? 88
2.9.6 全体构象的自动生成 89
2.9.7.1 简介 95
2.9.7 指南:三维结构编码(PDB,STAR,CIF,mmCIF) 95
2.9.7.2 PDB文件格式 96
2.9.7.3 STAR文件格式和字典 102
2.9.7.4 晶体信息文件(CCDC) 103
2.9.7.6 软件 105
2.9.7.5 mmCIF文件格式 105
2.10 分子表面 106
2.10.1 范德华表面 108
2.10.3 溶剂可及表面 109
2.10.2 Connolly表面 109
2.10.6 基于等值的电子密度表面 110
2.10.5 酶腔表面(Enzyme Cavity Surface,联合表面) 110
2.10.4 溶剂排斥表面 110
2.11.1 历史回顾 111
2.11 分子模型可视化 111
2.10.7 用实验方法获取表面 111
2.11.2.3 球棍模型 113
2.11.2.2 帽棍模型 113
2.11.2 结构模型 113
2.11.2.1 金属线结构模型 113
2.11.2.4 空间填充模型 114
2.11.3.1 圆柱体模型 115
2.11.3 生物大分子模型 115
2.11.5.1 基于等表面的性质(Properties Based on Isosurfaces) 116
2.11.5 分子属性的可视化 116
2.11.3.2 带状模型 116
2.11.3.3 管状模型 116
2.11.4 晶体图模型(Crystallographic Model) 116
2.12.1 概述 118
2.12 工具:化学结构绘制软件——分子编辑软件与显示软件 118
2.12.2 分子编辑器 119
2.12.2.1 单机应用 120
2.12.2.2 基于网页(web)的应用 124
2.12.3.1 单机应用 127
2.12.3 分子显示器(Molecule Viewers) 127
2.12.3.2 基于网页(web)的应用 129
2.13 基于网页(Web)的三维结构产生工具 137
3.1 引言 148
第3章 化学反应表达 148
3.3 反应中心 151
3.2 反应类型 151
3.4.1 物化效应 153
3.4 化学反应度 153
3.4.1.1 电荷分布 154
3.4.1.5 立体效应 155
3.4.1.4 极化效应 155
3.4.1.2 诱导效应 155
3.4.1.3 共振效应 155
3.4.2.1 前沿分子轨道理论 156
3.4.2 化学反应度定量的简单方法 156
3.4.1.6 立体电子效应 156
3.4.2.2 线性自由能关系(Linear Free Energy Relationships,LFER) 157
3.5 反应分类 159
3.4.2.3 经验反应度公式 159
3.5.1.1 Hendrickson方案 160
3.5.1 模型驱动方法 160
3.5.1.2 Ugi方法 161
3.5.2.1 HORACE 166
3.5.2 数据驱动的方法 166
3.5.1.3 信息化学反应分类 166
3.5.2.2 反应前景 167
3.7 指南:反应的立体化学 170
3.6 反应的立体化学 170
4.1.1 数据、信息和知识 175
4.1 引言 175
第4章 数据 175
4.1.2 数据采集途径 176
4.2.1 数据质量的重要性 177
4.2 数据采集 177
4.2.3 实验数据 179
4.2.2 数据复杂度 179
4.2.4.1 DAT文件 180
4.2.4 数据交换 180
4.2.4.2 JCAMP-DX格式 181
4.2.4.3 PMML 182
4.2.5 实际数据和它们潜在的不足 183
4.3.1 中心化、定标度和自标度 184
4.3 数据预处理 184
4.3.2.1 快速傅里叶变换(Fast Fourier Transformation,FFT) 186
4.3.2 高级方法 186
4.3.2.3 奇异值分解(Singular Value Decomposition,SVD) 187
4.3.2.2 小波变换(Wavelet transformation,WT) 187
4.3.3.1 基于遗传算法(genetic algorithm,GA)的方法 188
4.3.3 变量选择 188
4.3.3.2 基于正交化(orthogolization)的方法 189
4.3.4 目标选择(或称样本选择) 190
4.3.3.4 基于主成分分析(principal component analysis,PCA)的方法 190
4.3.3.3 基于模拟退火(Simulated Annealing,SA)的方法 190
4.4.1 训练集和测试集 192
4.4 准备验证模型质量的数据 192
4.4.2 测试数据集的收集 193
5.1 引言 196
第5章 化学数据库和数据资源 196
5.2.1 信息系统中的数据库 197
5.2 基本数据库理论 197
5.2.2 搜索引擎 198
5.2.3 访问数据库 199
5.2.4.1 层次数据库系统 200
5.2.4 数据库系统类型 200
5.2.4.2 网络模型 202
5.2.4.3 关系模型 203
5.2.4.4 基于对象的模型 204
5.3.1 文献数据库 205
5.3 数据库分类 205
5.3.2.2 化合物目录 206
5.3.2.1 数字数据库 206
5.3.2 事实数据库 206
5.4.1 化学文摘文件 207
5.4 文献数据库 207
5.3.2.3 研究项目数据库 207
5.3.2.4 元数据库 207
5.3.3 结构数据库 207
5.3.4 反应数据库 207
5.5 指南:使用化学文摘系统 208
5.4.3 Medline(在线医药文献、分析和获取系统) 208
5.4.2 SCISEARCH 208
5.5.2.1 入门 209
5.5.2 用SciFinder Scholar 2002访问CAS 209
5.5.1 在线访问 209
5.5.2.2 各种主题检索 210
5.6 特性(数字)数据库 213
5.6.2 Gmelin 214
5.6.1 Beilstein数据库 214
5.7.1 例1结构与事实联合检索 215
5.7 指南:检索Beilstein数据库[23] 215
5.6.3 DETHERM 215
5.7.2 例2反应检索 218
5.8 波谱数据库 221
5.9 晶体结构数据库 222
5.8.1 SpecInfo 222
5.9.3 PDB 223
5.9.2 CSD 223
5.9.1 ICSD 223
5.10.2 EMBL 224
5.10.1 GenBank(基因序列库) 224
5.10 分子生物学数据库 224
5.11.1 CAS登录数据库 225
5.11 结构数据库 225
5.10.3 PIR(蛋白质信息资源) 225
5.10.4 SWISS-PROT 225
5.10.5 CA登录数据库 225
5.12 化学反应数据库 226
5.11.2 国家癌症研究所(NCI)数据库 226
5.13.1 简介 227
5.13 指南:检索ChemInform反应数据库 227
5.12.1 CASREACT 227
5.12.2 ChemInform RX 227
5.13.2 例1反应检索 228
5.13.3 例2高级反应检索 229
5.13.4 对检索结果的反应进行分类 230
5.14 专利数据库 231
5.14.1 INPADOC 232
5.15 互联网上的化学信息 233
5.14.3 MARPAT 233
5.14.2 世界专利索引(WPINDEX) 233
5.16 指南:搜索互联网上的化学信息 234
5.17.1 简介:从互联网上提取环境科学信息的困难 236
5.17 指南:搜索互联网的环境科学信息 236
5.17.2.1 元数据库和门户网站 237
5.17.2 从互联网上提取环境科学信息的方法 237
5.17.2.2 搜索引擎 238
5.17.2.3 数据库 239
5.18 工具:互联网(化学在线数据库) 240
6.1 引言 249
第6章 化学结构检索 249
6.2 全结构检索 250
6.3.1 基本思想 253
6.3 子结构检索 253
6.3.2 回溯算法 255
6.3.3 回溯算法的优化 257
6.4.1 结构相似性基本概念 258
6.4 结构相似性搜索 258
6.3.4 筛法 258
6.4.2 结构相似性测度 259
6.4.3.1 结构相似性搜索过程 265
6.4.3 结构相似性搜索过程 265
6.4.3.2 结构描述子的选择与编码 266
6.4.3.5 相似度得分 267
6.4.3.4 查询目标的说明 267
6.4.3.3 相似性测度的选择 267
6.5 三维结构搜索方法 268
6.4.3.6 应用领域 268
7.1.1 简介 273
7.1 计算性质的经验方法 273
第7章 物理化学参数的计算 273
7.1.2 原子贡献的加和性 274
7.1.2.1 杂化状态 275
7.1.4 基团贡献的加和性 276
7.1.3 键贡献的加和性 276
7.1.5 环效应 278
7.1.6 药物-受体结合自由能 279
7.1.7.1 电荷分布的计算 281
7.1.7 衰减模型 281
7.1.7.2 极化效果 285
7.2.1 简介 287
7.2 分子力学 287
7.2.3 通用力场的函数形式 288
7.2.2 没有原子类型的非力场计算 288
7.2.3.1 键的伸缩 289
7.2.3.3 扭转项 291
7.2.3.2 键角弯曲 291
7.2.3.4 平面外弯曲 292
7.2.3.5 静电相互作用 293
7.2.3.6 范德华作用 294
7.2.3.7 剪力项 295
7.2.4 可利用的力场 296
7.2.4.1 用于小分子的力场 297
7.2.4.2 用于生物分子的力场 299
7.3.1 简介 304
7.3 分子动力学 304
7.3.2 分子的连续运动 305
7.3.3.1 算法 306
7.3.3 方法 306
7.3.3.2 加快计算的方法 307
7.3.3.3 溶剂效应 308
7.3.4 不变的能量、温度或压力? 311
7.3.3.4 周期边界条件 311
7.3.5 远程作用力 312
7.3.6 分子动力学技术的应用 313
7.4.1 分子轨道理论 318
7.4 量子力学 318
7.4.2 半经验分子轨道理论 322
7.4.3 从头计算分子轨道理论 324
7.4.4 密度泛函理论 329
7.4.5.1 净原子电荷 331
7.4.5 量子力学可计算的性质 331
7.4.5.3 极化率 332
7.4.5.2 偶极矩和更高的多极矩 332
7.4.5.6 局部电离势 333
7.4.5.5 表面描述子 333
7.4.5.4 轨道能量 333
7.4.6.2 杂化QM/MM计算 334
7.4.6.1 线性缩放方法 334
7.4.6 用于很大的分子的量子力学技术 334
7.4.7 量子力学方法在化学信息学中的发展 335
8.1 引言 341
第8章 结构描述子的计算 341
8.1.2 结构描述子的分类 342
8.1.1 结构描述子的定义 342
8.2 关键结构和1D指纹 343
8.2.1 距离和相似量度标准 344
8.3 拓扑描述子 345
8.3.2 邻接矩阵 346
8.3.1 图论的一些基本原理 346
8.3.4 距离矩阵 347
8.3.3 Laplacian矩阵 347
8.3.6 Randic连接指数 348
8.3.5 Wiener指数 348
8.3.8 特征树 349
8.3.7 拓扑自相关向量 349
8.4.2 3D自相关 350
8.4.1 3D结构产生 350
8.3.9 更深入的拓扑描述子 350
8.4 3D描述子 350
8.4.2.1 二甲苯异构体的例子 351
8.4.4 径向分布函数编码 352
8.4.3 基于电子衍射编码的3D分子结构表征(3D MoRSE Code) 352
8.5.1 手性定量描述子 354
8.5 手性描述子[34] 354
8.5.2 连续函数的手性度量(CCM) 355
8.6.1 简介 356
8.6 指南:独立于构象的手性和取决于构象的手性代码[34] 356
8.5.3 手性代码 356
8.6.2.4 组合特征 357
8.6.2.3 组合枚举 357
8.6.2 独立于构象的手性代码(CICC) 357
8.6.2.1 预备计算知识 357
8.6.2.2 与手性中心键连的相邻原子 357
8.6.3.2 组合枚举 358
8.6.3.1 总体印象 358
8.6.2.5 代码产生 358
8.6.3 取决于构象的手性代码(CDCC) 358
8.6.3.4 组合特征 359
8.6.3.3 组合中4个原子的分级 359
8.6.3.6 应用举例 361
8.6.3.5 代码产生 361
8.7.1 比较分子场分析(CoMFA) 363
8.7 深入的描述子 363
8.7.4 HYBOT描述子 364
8.7.3 4D-QSAR 364
8.7.2 BUCT描述子 364
8.8 独立于结构的描述子 365
8.9 结构描述子的性质 366
9.2 机器学习方法 372
9.1 引言 372
第9章 数据分析方法 372
9.2.2 无监督学习 373
9.2.1 机器学习过程 373
9.3 决策树 374
9.2.3 有监督学习 374
9.4.1 多元统计方法 375
9.4 化学计量学 375
9.4.2 相关 376
9.4.3 多元线性回归分析 377
9.4.4 主成分分析 378
9.4.7 例子:矿物水样中的离子浓度 380
9.4.6 偏最小二乘/特征结构投影 380
9.4.5 主成分回归 380
9.4.8 工具:在线数据分析服务(ELECTRAS) 381
9.5.1 人脑的模拟:生物神经元与人工神经元 383
9.5 神经网络 383
9.5.2.2 学习策略 385
9.5.2.1 训练 385
9.5.2 网络 385
9.5.3.2 训练 386
9.5.3.1 结构 386
9.5.3 Kohonen网络 386
9.5.4 评论:Kohonen网络在橄榄油分类中的应用(运用ELECTRAS)[9] 387
9.5.5.1 结构 389
9.5.5 对传神经网络 389
9.5.6 工具:SONNIA[12](用于信息分析的自组织神经网络) 390
9.5.5.2 训练 390
9.5.7.2 训练 391
9.5.7.1 结构 391
9.5.7 反向传播网络 391
9.5.8 指南:神经网络 392
9.6.1 一些概念 393
9.6 模糊集以及模糊逻辑 393
9.5.9 神经网络的任务和正确选择神经网络的方法 393
9.6.2 化学中的模糊逻辑应用 394
9.7.1 染色体的表示及编码 395
9.7 遗传算法 395
9.7.4 函数选择 396
9.7.3 适应和目标函数 396
9.7.2 个体的初始化 396
9.7.6 指南:用于结构活性研究中的相关描述子的选择 397
9.7.5 遗传操作子 397
9.8 数据挖掘 398
9.7.6.1 例子:药物设计 398
9.8.3 预测和回归 399
9.8.2 聚类和相似性探测 399
9.8.1 分类 399
9.9 可视化数据挖掘 400
9.8.6 化学中的数据挖掘 400
9.8.4 关联 400
9.8.5 描述的探测 400
9.9.1 可视化数据挖掘方法的优点 401
9.9.2.2 可视化技术 402
9.9.2.1 数据类型 402
9.9.2 信息可视化技术 402
9.10 专家系统 403
9.9.2.3 交互及变形技术 403
9.10.1 专家系统的构架 404
9.10.3.1 DENDRAL 405
9.10.3 化学中的专家系统 405
9.10.2 专家系统的任务 405
9.10.3.2 EROS 406
10.1.1 简介 410
10.1 化合物性质的预测 410
第10章 应用 410
10.1.2 线性自由能关系(LFER) 411
10.1.3.3 模型构建 412
10.1.3.2 描述子分析 412
10.1.3 定量结构-性质关系(QSPR) 412
10.1.3.1 结构表示 412
10.1.4 正辛醇/水分配系数(logPow)的预测 413
10.1.4.1 其他基于子结构的方法 414
10.1.4.2 QSPR模型 415
10.1.5.1 水溶性预测方法 416
10.1.5 水溶性(logS)的预测 416
10.1.5.2 指南:用18个拓扑描述子建立预测水溶性模型 418
10.1.5.3 用32个径向分布函数值和8个描述子建立的模型 422
10.1.6.2 毒性的模型化 424
10.1.6.1 如何定量化毒性 424
10.1.6 化合物毒性的预测 424
10.1.7 指南:把化合物归类于不同的作用模式中 427
10.1.8 结论和展望 430
10.2.2.1 基于碎片的描述子 433
10.2.2 分子描述子 433
10.2 结构-波谱的相互关系 433
10.2.1 前言 433
10.2.2.2 拓扑结构编码 434
10.2.3 13C NMR波谱 435
10.2.2.3 三维分子描述子 435
10.2.4.1 化学位移预测 437
10.2.4 1H NMR波谱 437
10.2.4.2 工具:预测1H NMR化学位移 441
10.2.5.2 红外光谱模拟 445
10.2.5.1 总论 445
10.2.5 红外光谱 445
10.2.5.3 工具:TeleSpec-红外光谱模拟的在线服务 446
10.2.6 质谱 449
10.2.7 计算辅助结构解析 450
10.3 化学反应和合成设计 455
10.3.1.1 引言 456
10.3.1 化学反应的预测 456
10.3.1.2 反应知识库的知识提取 457
10.3.1.3 指南:吡唑合成中对区域化学的预测 458
10.3.1.4 CAMEO 462
10.3.1.5 EROS 463
10.3.1.6 指南:在土壤中s-三嗪除草剂降解反应的模拟 466
10.3.1.7 生化反应途径 468
10.3.1.8 指南:生化途径的多维检索 475
10.3.2.1 导论 478
10.3.2 计算机辅助的合成设计 478
10.3.2.2 基本术语 480
10.3.2.4 合成设计系统 483
10.3.2.3 计算机辅助的有机合成中的有关概念 483
10.3.2.5 指南:用WODCA程序进行合成设计 493
10.4.1 简介 503
10.4 药物设计 503
10.4.2 影响药物设计的经济方面考虑 504
10.4.3 药物设计中的术语及其定义 505
10.4.4.1 靶标鉴定及确证 506
10.4.4 药物发现过程 506
10.4.4.2 先导化合物发现与优化 507
10.4.5.1 化合物选择和相似度/多样性检索 508
10.4.5 化学信息学在药物设计中应用的各个领域 508
10.4.4.3 预临床和临床试验 508
10.4.5.3 虚拟筛选 509
10.4.5.2 HTS数据分析 509
10.4.5.5 进一步的问题 510
10.4.5.4 组合化合物库的设计 510
10.4.6 基于配体的和基于结构的药物设计 511
10.4.6.1 基于配体的药物设计 512
10.4.6.2 基于结构的药物设计 514
10.4.7 应用 517
10.4.7.1 发现生物活性分子与发现先导化合物结构之异同-基于配体的药物设计之实例 517
10.4.7.2 基于结构的药物设计之实例 519
10.4.8 展望 521
第11章 将来的发展方向 527
附录 530
索引(按汉语拼音顺序排序) 535