基于词典与统计结合的中文分词方法研究及全文检索系统设计
摘要 | 第6-7页 |
Abstract | 第7-8页 |
1. 绪论 | 第11-18页 |
1.1 研究背景与意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-15页 |
1.2.1 全文检索技术的发展及应用 | 第12-13页 |
1.2.2 中文分词技术 | 第13-14页 |
1.2.3 总结分析 | 第14-15页 |
1.3 研究内容与方法 | 第15-17页 |
1.3.1 研究目标与内容 | 第15页 |
1.3.2 研究方法与技术路线 | 第15-17页 |
1.4 论文的组织结构 | 第17-18页 |
2. 全文检索相关技术 | 第18-28页 |
2.1 全文检索 | 第18-19页 |
2.1.1 全文检索简介 | 第18页 |
2.1.2 全文检索框架 | 第18-19页 |
2.2 全文索引模型 | 第19-23页 |
2.2.1 位图及署名文件模型 | 第19-20页 |
2.2.2 倒排表模型 | 第20-21页 |
2.2.3 后缀树模型 | 第21-23页 |
2.2.4 全文索引模型评价 | 第23页 |
2.3 检索模型 | 第23-28页 |
2.3.1 布尔检索模型 | 第24页 |
2.3.2 向量空间模型 | 第24-25页 |
2.3.3 概率模型 | 第25-28页 |
3. 中文分词算法 | 第28-45页 |
3.1 中文分词简介 | 第28-29页 |
3.1.1 中文分词难点 | 第28-29页 |
3.1.2 中文分词算法 | 第29页 |
3.2 基于词典的中文分词方法 | 第29-34页 |
3.2.1 词典分词 | 第29-32页 |
3.2.2 词典机制 | 第32-34页 |
3.3 基于统计的分词方法 | 第34-39页 |
3.3.1 互信息模型 | 第34-35页 |
3.3.2 N-gram模型 | 第35-36页 |
3.3.3 隐马尔科夫模型 | 第36-37页 |
3.3.4 条件随机场 | 第37-39页 |
3.4 基于词典与统计结合的中文分词方法 | 第39-43页 |
3.4.1 本文分词算法设计 | 第39-40页 |
3.4.2 实验结果及分析 | 第40-43页 |
3.5 分词算法比较与评价 | 第43-45页 |
4. 资源库全文检索系统设计 | 第45-56页 |
4.1 全文检索框架Lucene | 第45-48页 |
4.1.1 Lucene索引结构 | 第46-47页 |
4.1.2 Lucene检索过程 | 第47-48页 |
4.1.3 Lucene分析器 | 第48页 |
4.2 武当山资源库概述 | 第48-49页 |
4.3 全文检索系统设计 | 第49-56页 |
4.3.1 功能设计 | 第49-50页 |
4.3.2 文档录入与提取模块设计 | 第50-51页 |
4.3.3 索引模块设计 | 第51-54页 |
4.3.4 查询模块设计 | 第54-55页 |
4.3.5 结果分析 | 第55-56页 |
5. 总结与展望 | 第56-57页 |
5.1 总结 | 第56页 |
5.2 展塑 | 第56-57页 |
参考文献 | 第57-60页 |
致谢 | 第60页 |