基于词典的中文分词算法研究及其在Nutch系统中的应用
摘要 | 第1-5页 |
Abstract | 第5-9页 |
第1章 绪论 | 第9-12页 |
·研究背景和研究意义 | 第9-10页 |
·本文主要工作 | 第10-11页 |
·本文的组织结构 | 第11-12页 |
第2章 中文分词技术及 NUTCH 概述 | 第12-26页 |
·中文分词技术 | 第12-18页 |
·中文分词技术简介 | 第12-15页 |
·中文分词中的难题 | 第15-17页 |
·中文分词的应用 | 第17-18页 |
·NUTCH | 第18-26页 |
·Nutch 工作流程 | 第18-19页 |
·Nutch 基本原理分析 | 第19-23页 |
·Nutch 的分词架构 | 第23-26页 |
第3章 基于词典的中文分词算法研究 | 第26-37页 |
·中文分词的一般过程 | 第26页 |
·词典的组织结构 | 第26-28页 |
·基于整词二分的分词词典机制 | 第26-27页 |
·基于 TRIE 索引树的分词词典机制 | 第27页 |
·基于逐字二分的分词词典机制 | 第27-28页 |
·双字哈希索引分词词典 | 第28-31页 |
·双字哈希词典结构 | 第28-30页 |
·查询算法 | 第30-31页 |
·基于词典的中文分词算法及实现 | 第31-37页 |
·实现方法 | 第31-34页 |
·测试 | 第34-37页 |
第4章 中文分词算法在 NUTCH 中的实现 | 第37-48页 |
·系统实现环境 | 第37页 |
·Nutch 的安装和配置 | 第37-41页 |
·实现 Nutch 中文分词的代码修改 | 第41-44页 |
·中文分词算法的测试 | 第44-48页 |
·抓取结果的分词测试 | 第44-45页 |
·查询关键字的分词测试 | 第45-46页 |
·搜索结果测试 | 第46-48页 |
结论 | 第48-50页 |
参考文献 | 第50-52页 |
致谢 | 第52页 |