1 机器学习基础 1
1.1 数据概况 2
1.2 数据的预处理和特征选取 3
1.3 缺失值的处理与插补 8
1.4 交叉验证 12
1.5 模型建立 13
1.6 模型比较 20
2 梯度提升决策树 23
2.1 超参数 26
2.2 特征重要性 32
2.3 模型的临床应用 33
2.4 模型集成 35
2.5 机器学习的报告要点 38
3 聚类算法 41
3.1 各种聚类算法 42
3.2 主成分分析 46
3.3 聚类算法的直观显示 48
4 神经网络 51
4.1 感知器 52
4.2 全连接神经网络的训练 53
4.3 控制过拟合 58
4.4 公开数据来源 61
5 卷积神经网络 67
5.1 卷积运算 68
5.2 池化运算 71
5.3 简单卷积神经网络的构建和训练 71
5.4 图像样本量扩大 78
5.5 迁移学习 81
5.6 可解释的卷积神经网络 86
5.7 开放图像数据库 88
5.8 卷积神经网络的意义与不足 89
6 自编码和对抗生成神经网络 91
6.1 自编码算法基础 92
6.2 自编码算法降噪 97
6.3 变分自编码算法 100
6.4 变分自编码算法生成虚拟图像 104
6.5 对抗生成神经网络生成虚拟图像 105
7 递归神经网络 107
7.1 递归神经网络原理 108
7.2 递归神经网络构建 109
7.3 长短期记忆网络 111
7.4 门控递归神经网络 113
7.5 LSTM和GRU的构建 113
7.6 卷积神经网络和递归神经网络的叠加 115
8 自然语言处理和电子病历 119
8.1 从单词到向量 120
8.2 利用传统自然语言处理寻找脑外伤患者 122
8.3 利用神经网络寻找脑外伤患者 125
8.4 电子病历系统中神经网络的应用 131
9 可解释的机器学习 133
9.1 预测蛋白-蛋白间结合 134
9.2 预测基因-蛋白间结合 139
9.3 机器学习的解释 145
10 深度强化学习 147
10.1 强化学习 148
10.2 利用Q学习预测脓毒症的治疗策略 149
10.3 利用深度强化学习预测治疗策略 154
10.4 强化学习的不足之处 161
11 因果推断简介 163
11.1 反事实模型 164
11.2 随机对照研究 164
11.3 非随机对照研究 165
11.4 因果推断还是预测 165
11.5 因果关系图 166
11.6 分层分析 167
11.7 回归 170
11.8 交互作用 171
12 控制混杂因素的新方法 173
12.1 匹配分析 174
12.2 倾向得分 175
12.3 逆概率和稳定的逆概率加权 179
12.4 失访偏差的校正 182
12.5 随机对照研究中的偏差校正 183
12.6 工具变量 184
12.7 断点回归 185
12.8 随时间变动的治疗和混杂 188
12.9 动态治疗方案 189
附录:软件安装 193