第一章 使用R语言 1
R语言与机器学习 2
下载与安装 4
整合开发环境与文字编辑器 8
R语言套件载入与安装 9
R语言基本介绍 12
R语言延伸阅读 27
第二章 资料探索 29
资料探索与资料验证 29
何谓资料? 30
猜测资料栏位的型态 33
推断资料涵义 36
数值总结 36
平均数、中位数与众数 37
分位数 39
标准差与变异数 40
视觉化资料探索 43
视觉化呈现资料栏位关联性 60
第三章 文本分类:垃圾邮件判断 71
非此即彼:二分法 71
条件机率 75
尝试撰写贝氏垃圾邮件分类器 76
建立分类器并测试难判别正常邮件 83
测试各种邮件型态 86
改善结果 88
第四章 项目排序:优先收件匣 91
如何在未知顺序的情况下进行排序? 91
以优先性对电子邮件进行排序 92
电子邮件优先性 93
撰写优先收件匣 96
撷取邮件属性的指令 97
设计权重计算策略以进行排序 104
以信件群组活跃度定义权重 110
训练并测试邮件排序演算法 114
第五章 回归分析:预测网页浏览人次 125
回归分析简介 125
模型根据 125
以虚变数进行回归 129
浅谈线性回归 131
预测网页流量 139
定义相关性 150
第六章 正则化:文本回归 153
栏位之间的非线性关联性 153
多项式回归简介 156
过度拟合的避免方法 163
以正则化避免过度拟合 168
文本回归 173
逻辑回归前来解救 176
第七章 最佳化:破解密码 181
最佳化导论 181
山脊型回归(Ridge Regression) 188
将破解密码视为最佳化问题 192
第八章 PCA:建立股价指数 203
非监督式学习 203
第九章 MDS:视觉化呈现美国参议员相似度 213
根据相似度进行分群(Clustering ) 213
距离测度与MDS的简介 214
美国参议员如何分群? 219
分析参议员唱名表决资料(第101至111届国会) 221
第十章 kNN:推荐系统 231
最近相邻演算法(k-Nearest Neighbors Algorithm) 231
R套件安装资料 237
第十一章 分析社群关系图 243
社群网路分析 243
图式思考 246
骇入Twitter社群资料 247
使用Google SocialGraph API 250
Twitter网路图分析 255
区域社群结构 256
使用Gephi对Twitter网路图的分群结果绘图 260
建立「可能想关注的对象」推荐系统 268
第十二章 模型比较 275
SVM:支援向量机 275
演算法比较 285
参考文献 293
索引 295