第1章 文字和语言vs数字和信息 1
第2章 自然语言处理——从规则到统计 15
第3章 统计语言模型 27
第4章 谈谈中文分词 41
第5章 隐含马尔可夫模型 49
第6章 信息的度量和作用 59
第7章 贾里尼克和现代语言处理 71
第8章 简单之美——布尔代数和搜索引擎的索引 81
第9章 图论和网络爬虫 89
第10章 PageRank——Google的民主表决式网页排名技术 99
第11章 如何确定网页和查询的相关性 105
第12章 地图和本地搜索的最基本技术——有限状态机和动态规划 111
第13章 Google AK-47的设计者——阿米特&辛格博士 121
第14章 余弦定理和新闻的分类 127
第15章 矩阵运算和文本处理中的两个分类问题 137
第16章 信息指纹及其应用 143
第17 章由电视剧《暗算》所想到的——谈谈密码学的数学原理 155
第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题 163
第19章 谈谈数学模型的重要性 169
第20章 不要把鸡蛋放到一个篮子里——谈谈最大熵模型 177
第21章 拼音输入法的数学原理 185
第22章 自然语言处理的教父马库斯和他的优秀弟子们 197
第23章 布隆过滤器 205
第24章 马尔可夫链的扩展——贝叶斯网络 211
第25章 条件随机场和句法分析 219
第26章 维特比和他的维特比算法 227
第27章 再谈文本自动分类问题——期望最大化算法 239
第28章 逻辑回归和搜索广告 245
第29章 各个击破算法和Google云计算的基础 251
附录 257
后记 259
索引 263