基于词典的中文分词算法研究及其在Nutch系统中的应用
| 摘要 | 第1-5页 |
| Abstract | 第5-9页 |
| 第1章 绪论 | 第9-12页 |
| ·研究背景和研究意义 | 第9-10页 |
| ·本文主要工作 | 第10-11页 |
| ·本文的组织结构 | 第11-12页 |
| 第2章 中文分词技术及 NUTCH 概述 | 第12-26页 |
| ·中文分词技术 | 第12-18页 |
| ·中文分词技术简介 | 第12-15页 |
| ·中文分词中的难题 | 第15-17页 |
| ·中文分词的应用 | 第17-18页 |
| ·NUTCH | 第18-26页 |
| ·Nutch 工作流程 | 第18-19页 |
| ·Nutch 基本原理分析 | 第19-23页 |
| ·Nutch 的分词架构 | 第23-26页 |
| 第3章 基于词典的中文分词算法研究 | 第26-37页 |
| ·中文分词的一般过程 | 第26页 |
| ·词典的组织结构 | 第26-28页 |
| ·基于整词二分的分词词典机制 | 第26-27页 |
| ·基于 TRIE 索引树的分词词典机制 | 第27页 |
| ·基于逐字二分的分词词典机制 | 第27-28页 |
| ·双字哈希索引分词词典 | 第28-31页 |
| ·双字哈希词典结构 | 第28-30页 |
| ·查询算法 | 第30-31页 |
| ·基于词典的中文分词算法及实现 | 第31-37页 |
| ·实现方法 | 第31-34页 |
| ·测试 | 第34-37页 |
| 第4章 中文分词算法在 NUTCH 中的实现 | 第37-48页 |
| ·系统实现环境 | 第37页 |
| ·Nutch 的安装和配置 | 第37-41页 |
| ·实现 Nutch 中文分词的代码修改 | 第41-44页 |
| ·中文分词算法的测试 | 第44-48页 |
| ·抓取结果的分词测试 | 第44-45页 |
| ·查询关键字的分词测试 | 第45-46页 |
| ·搜索结果测试 | 第46-48页 |
| 结论 | 第48-50页 |
| 参考文献 | 第50-52页 |
| 致谢 | 第52页 |