摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 绪论 | 第9-12页 |
·研究基础 | 第9-10页 |
·研究内容 | 第10-11页 |
·本文组织 | 第11-12页 |
第二章 相关技术研究现状 | 第12-18页 |
·桌面搜索引擎研究现状 | 第12-15页 |
·概述 | 第12-13页 |
·Lucene搜索引擎 | 第13-15页 |
·近似镜像网页检测算法的研究现状 | 第15-17页 |
·基于全文分段签名的近似镜像网页检测算法 | 第15-16页 |
·基于关键词匹配的近似镜像算法 | 第16-17页 |
·本章小结 | 第17-18页 |
第三章 基于P2PKM的桌面搜索引擎 | 第18-38页 |
·引言 | 第18-20页 |
·基于P2PKM的桌面搜索引擎 | 第20-28页 |
·本地知识库的组织结构 | 第20-22页 |
·知识库的两级分类结构设计 | 第20-21页 |
·知识库两级分类之间映射关系的存储 | 第21-22页 |
·索引模块结构 | 第22-27页 |
·索引创建的算法 | 第23-25页 |
·单个知识包索引创建算法 | 第25-27页 |
·搜索模块结构 | 第27-28页 |
·搜索的算法 | 第27页 |
·知识库搜索算法 | 第27-28页 |
·Lucene搜索引擎开源包分析 | 第28-37页 |
·Lucene搜索引擎系统结构 | 第28-31页 |
·Lucene索引和搜索设计 | 第31-34页 |
·Lucene检索关键类的UML类图分析 | 第34-37页 |
·索引管理包 | 第34-36页 |
·查询分析包和检索包 | 第36-37页 |
·本章小结 | 第37-38页 |
第四章 中文分词技术的优化 | 第38-45页 |
·Lucene对中文的支持 | 第38-40页 |
·中文分词技术及其分类 | 第40-41页 |
·正向最大匹配算法描述 | 第41页 |
·词表描述 | 第41-42页 |
·正向最大匹配算法的应用 | 第42-44页 |
·本章小结 | 第44-45页 |
第五章 PDF、WORD和EXCEL文档检索扩展 | 第45-59页 |
·Lucene搜索引擎索引文件概念组成 | 第45-49页 |
·段(Segment) | 第45页 |
·文档(Document) | 第45-46页 |
·域(Field) | 第46页 |
·项fTerm) | 第46-47页 |
·文档结构包org.apache.lucene.document的UML类图分析 | 第47-48页 |
·小结 | 第48-49页 |
·使用PDFBox处理PDF文档 | 第49-53页 |
·使用POI处理WORD文档和EXCEL文档 | 第53-58页 |
·本章小结 | 第58-59页 |
第六章 近似镜像检测算法的应用 | 第59-65页 |
·信息提取和元数据提取 | 第59-60页 |
·信息提取 | 第59-60页 |
·元数据提取 | 第60页 |
·对重复文本的定义 | 第60-61页 |
·近似镜像文本检测算法 | 第61-62页 |
·算法描述 | 第61-62页 |
·性能分析 | 第62页 |
·为本系统定制一个消重方法 | 第62-64页 |
·本章小结 | 第64-65页 |
第七章 总结与展望 | 第65-66页 |
·本文工作总结 | 第65页 |
·下一步的工作及展望 | 第65-66页 |
参考文献 | 第66-70页 |
致谢 | 第70-71页 |
在读期间参加的科研项目 | 第71-72页 |
在读期间发表录用的学术论文 | 第72页 |