当前位置:首页 > 工业技术
Java中文文本信息处理  从海量到精准
Java中文文本信息处理  从海量到精准

Java中文文本信息处理 从海量到精准PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:罗刚,张子宪,崔智杰编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302469360
  • 页数:398 页
图书介绍:全书以零基础的读者自学完成一个中文分词系统作为目标。从Java基础语法开始,然后到文本处理相关的数据结构和算法,最后实现文本切分和词性标注。本书是唯一介绍业界热门的Java开发中文分词的书籍。
《Java中文文本信息处理 从海量到精准》目录

第1章Java软件开发 1

1.1背景 3

1.1.1好身体是一切成功的保证 3

1.1.2路线图 4

1.1.3 Java 4

1.2软件工具 7

1.2.1搜索引擎 7

1.2.2 Windows命令行 8

1.2.3机器翻译 9

1.2.4 Linux 10

1.2.5源代码比较工具 11

1.3 Java基础 11

1.3.1准备开发环境 11

1.3.2 Eclipse 13

1.4本章小结 17

第2章 结构化程序设计 19

2.1基本数据类型 19

2.2变量 20

2.2.1表达式执行顺序 22

2.2.2简化的运算符 23

2.2.3常量 24

2.3控制结构 25

2.3.1语句 25

2.3.2判断条件 25

2.3.3三元运算符 27

2.3.4条件判断 27

2.3.5循环 31

2.4方法 36

2.4.1 main方法 41

2.4.2递归调用 41

2.4.3方法调用栈 42

2.5数组 42

2.5.1数组求和 45

2.5.2计算平均值举例 45

2.5.3前趋节点数组 46

2.5.4快速复制 47

2.5.5循环不变式 49

2.6字符串 50

2.6.1字符编码 52

2.6.2格式化 53

2.6.3增强switch语句 54

2.7数值类型 54

2.7.1类型转换 58

2.7.2整数运算 59

2.7.3数值运算 60

2.7.4位运算 61

2.8安装Java 69

2.8.1服务器端安装 69

2.8.2自动安装Java 70

2.9提高代码质量 72

2.9.1代码整洁 72

2.9.2单元测试 72

2.9.3调试 73

2.9.4重构 73

2.10本章小结 74

第3章 面向对象编程 77

3.1类和对象 77

3.1.1类 78

3.1.2类方法 78

3.1.3类变量 79

3.1.4实例变量 79

3.1.5构造方法 82

3.1.6对象 84

3.1.7实例方法 87

3.1.8调用方法 89

3.1.9内部类 89

3.1.10克隆 90

3.1.11结束 91

3.2继承 92

3.2.1重写 92

3.2.2继承构造方法 94

3.2.3接口 95

3.2.4匿名类 98

3.2.5类的兼容性 98

3.3封装 98

3.4重载 99

3.5静态 100

3.5.1静态变量 100

3.5.2静态类 100

3.5.3修饰类的关键词 101

3.6枚举类型 101

3.7集合类 105

3.7.1动态数组 105

3.7.2散列表 106

3.7.3泛型 109

3.7.4 Google Guava集合 112

3.7.5类型擦除 112

3.7.6遍历 114

3.7.7排序 117

3.7.8 lambda表达式 119

3.8比较 119

3.8.1 Comparable接口 119

3.8.2比较器 120

3.9 SOLID原则 122

3.10异常 123

3.10.1断言 123

3.10.2 Java中的异常 124

3.10.3从方法中抛出异常 126

3.10.4处理异常 128

3.10.5正确使用异常 130

3.11字符串对象 132

3.11.1字符对象 135

3.11.2查找字符串 135

3.11.3修改字符串 136

3.11.4格式化 136

3.11.5常量池 137

3.11.6关于对象不可改变 139

3.12日期 140

3.13大数对象 141

3.14给方法传参数 142

3.14.1基本类型和对象 143

3.14.2重载 145

3.15 文件操作 146

3.15.1文本文件 146

3.15.2二进制文件 149

3.15.3文件位置 152

3.15.4读写Unicode编码的文件 153

3.15.5文件描述符 155

3.15.6对象序列化 156

3.15.7使用IOUtils 160

3.16 Java类库 161

3.16.1使用Java类库 162

3.16.2构建JAR包 163

3.16.3使用Ant 167

3.16.4生成JavaDoc 167

3.16.5 ClassLoader 168

3.16.6反射 172

3.17编程风格 173

3.17.1命名规范 173

3.17.2流畅接口 174

3.17.3日志 175

3.18 IDEA 181

3.19实例 181

3.20本章小结 183

第4章 处理文本 185

4.1字符串操作 185

4.2有限状态机 188

4.2.1从NFA到DFA 190

4.2.2 DFA 194

4.2.3 DFA交集 197

4.2.4 DFA并集 203

4.2.5有限状态转换 204

4.3本章小结 207

第5章 数据结构 209

5.1链表 209

5.2树算法 210

5.2.1标准Trie树 211

5.2.2链表Trie树 221

5.2.3二叉搜索树 223

5.2.4数组形式的二叉树 227

5.2.5三叉Trie树 233

5.2.6三叉Trie树交集 244

5.2.7 Trie树词典 245

5.2.8平衡Trie树 249

5.2.9 B树 250

5.3双数组Trie 251

5.4队列 257

5.4.1链表实现的队列 257

5.4.2优先队列 258

5.4.3找出前k个最大的元素 261

5.5堆栈 262

5.6双端队列 264

5.7散列表 268

5.7.1快速查找的散列表 269

5.7.2 HashMap 272

5.7.3应用散列表 276

5.7.4开放式寻址 279

5.7.5布隆过滤器 282

5.7.6 SimHash 284

5.8图 286

5.8.1表示图 287

5.8.2遍历图 295

5.9大数据 297

5.10本章小结 297

第6章 算法 299

6.1贪婪法 299

6.2分治法 301

6.3动态规划 302

6.4在中文分词中使用动态规划算法 303

6.5本章小结 310

第7章 最长匹配分词 311

7.1正向最大长度匹配法 312

7.2逆向最大长度匹配法 316

7.3处理未登录串 320

7.4开发分词 324

7.5本章小结 326

第8章 概率语言模型的分词方法 327

8.1一元模型 328

8.2整合基于规则的方法 334

8.3表示切分词图 336

8.4形成切分词图 342

8.5数据基础 344

8.5.1文本形式的词表 344

8.5.2数据库词表 348

8.6改进一元模型 349

8.7二元词典 352

8.8完全二叉数组 357

8.9三元词典 360

8.10 N元模型 361

8.11 N元分词 362

8.12生成语言模型 368

8.13评估语言模型 369

8.14概率分词的流程与结构 370

8.15 本章小结 371

第9章 词性标注 373

9.1数据基础 376

9.2隐马尔科夫模型 377

9.3存储数据 385

9.4统计数据 390

9.5整合切分与词性标注 392

9.6知识型词性序列标注 396

9.7本章小结 396

参考资源 397

后记 398

相关图书
作者其它书籍
返回顶部