第1章 绪论 1
1.1 研究背景 1
1.1.1 人类基因组计划 1
1.1.2 DNA元件百科全书 2
1.1.3 非编码RNA 3
1.1.4 长非编码RNA 3
1.1.5 小干扰RNA 4
1.2 国内外研究现状 7
1.2.1 基于数据驱动的生物网络构造 7
1.2.2 生物网络与非编码基因功能研究 9
1.2.3 疾病相关非编码基因研究 10
1.2.4 siRNA沉默基因 11
1.3 研究内容及意义 22
第2章 非编码基因特征研究 24
2.1 非编码基因生物统计特征分析 25
2.1.1 lncRNA平面构象 25
2.1.2 lncRNA密码子替换频率 26
2.1.3 lncRNA核苷酸三聚体分布 29
2.1.4 lncRNA序列保守性分析 29
2.1.5 lncRNA可读框特征分析 30
2.2 lncRNA功能特异性分析 30
2.3 鉴定lncRNA 32
2.3.1 发现新的lncRNA 32
2.3.2 lncRNA与mRNA区别 33
2.4 非编码基因数据库 34
第3章 基于数据驱动的编码基因功能注释 36
3.1 生物芯片非编码基因重注释 36
3.1.1 HG-U133A芯片平台 36
3.1.2 芯片探针定义重注释 36
3.1.3 HG-U133A重注释结果与分析 38
3.2 非编码基因功能预测 42
3.2.1 芯片数据预处理 42
3.2.2 构建共表达网络 43
3.2.3 功能预测 47
3.3 算法性能评价 47
3.3.1 随机网络对比实验 47
3.3.2 预测精确度、特异性 47
3.4 人类非编码基因功能预测结果及分析 50
第4章 基于傅里叶分析的非编码持家基因鉴定 54
4.1 傅里叶谱构造 54
4.1.1 基因表达时序数据选择 55
4.1.2 时序数据预处理 56
4.2 鉴定持家基因 58
4.2.1 定义持家基因 58
4.2.2 识别和提取HKG谱的特征信息 58
4.3 持家基因鉴定结果 59
4.4 预测性能分析 61
4.4.1 利用组织表达谱评价预测性能 63
4.4.2 验证HKG预测结果与评价 63
4.5 预测结果分析 65
第5章 基于机器学习方法的siRNA沉默效率预测 69
5.1 siRNA样本收集 69
5.2 siRNA特征提取 70
5.3 预测模型构建 71
5.4 预测性能评估 72
第6章 siRNA沉默效率预测平台siRNApred 74
6.1 siRNApred平台的构建流程 74
6.2 siRNA特征提取 75
6.2.1 单碱基编码 75
6.2.2 siRNA和mRNA序列组成 76
6.2.3 二模模序和三模模序位置与siRNA效率相关性分析 77
6.2.4 二模模序和三模模序的位置编码 80
6.2.5 热力学参数 82
6.3 基于随机森林的siRNA沉默效率预测模型 82
6.3.1 决策树 83
6.3.2 随机森林预测模型 84
6.4 siRNA特征选择 84
6.4.1 z-score特征重要度评价 85
6.4.2 siRNA最优特征集合搜索 85
6.5 实验分析 86
6.5.1 实验数据集 86
6.5.2 二模模序和三模模序位置编码有效性 89
6.5.3 特征评估与筛选 90
6.5.4 siRNApred与主流预测算法比较 94
第7章 基于卷积神经网络的siRNA沉默效率预测算法 99
7.1 卷积神经网络概述 99
7.1.1 卷积神经网络的结构及特点 100
7.1.2 卷积神经网络的前向过程 101
7.1.3 卷积神经网络的权值修正 104
7.2 基于卷积神经网络的siRNA沉默效率预测模型 105
7.2.1 基于卷积神经网络的siRNA沉默效率预测模型结构 105
7.2.2 适用于卷积神经网络的siRNA序列编码 107
7.2.3 多模模序探测器的设计 107
7.2.4 建立逻辑回归预测siRNA的沉默效率 109
7.2.5 基于卷积神经网络的siRNA沉默效率预测模型训练过程 109
7.3 基于卷积神经网络的siRNA沉默效率预测模型超参数设置 110
7.3.1 卷积核尺寸参数对预测结果的影响 111
7.3.2 激活函数对预测结果的影响 112
7.3.3 学习率对预测结果的影响 113
7.4 与其他机器学习模型的比较 114
第8章 结论与展望 116
主要参考文献 118