基于P2PKM的桌面搜索优化的研究

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-12页
·研究基础	第9-10页
·研究内容	第10-11页
·本文组织	第11-12页
第二章相关技术研究现状	第12-18页
·桌面搜索引擎研究现状	第12-15页
·概述	第12-13页
·Lucene搜索引擎	第13-15页
·近似镜像网页检测算法的研究现状	第15-17页
·基于全文分段签名的近似镜像网页检测算法	第15-16页
·基于关键词匹配的近似镜像算法	第16-17页
·本章小结	第17-18页
第三章基于P2PKM的桌面搜索引擎	第18-38页
·引言	第18-20页
·基于P2PKM的桌面搜索引擎	第20-28页
·本地知识库的组织结构	第20-22页
·知识库的两级分类结构设计	第20-21页
·知识库两级分类之间映射关系的存储	第21-22页
·索引模块结构	第22-27页
·索引创建的算法	第23-25页
·单个知识包索引创建算法	第25-27页
·搜索模块结构	第27-28页
·搜索的算法	第27页
·知识库搜索算法	第27-28页
·Lucene搜索引擎开源包分析	第28-37页
·Lucene搜索引擎系统结构	第28-31页
·Lucene索引和搜索设计	第31-34页
·Lucene检索关键类的UML类图分析	第34-37页
·索引管理包	第34-36页
·查询分析包和检索包	第36-37页
·本章小结	第37-38页
第四章中文分词技术的优化	第38-45页
·Lucene对中文的支持	第38-40页
·中文分词技术及其分类	第40-41页
·正向最大匹配算法描述	第41页
·词表描述	第41-42页
·正向最大匹配算法的应用	第42-44页
·本章小结	第44-45页
第五章 PDF、WORD和EXCEL文档检索扩展	第45-59页
·Lucene搜索引擎索引文件概念组成	第45-49页
·段(Segment)	第45页
·文档(Document)	第45-46页
·域(Field)	第46页
·项fTerm)	第46-47页
·文档结构包org.apache.lucene.document的UML类图分析	第47-48页
·小结	第48-49页
·使用PDFBox处理PDF文档	第49-53页
·使用POI处理WORD文档和EXCEL文档	第53-58页
·本章小结	第58-59页
第六章近似镜像检测算法的应用	第59-65页
·信息提取和元数据提取	第59-60页
·信息提取	第59-60页
·元数据提取	第60页
·对重复文本的定义	第60-61页
·近似镜像文本检测算法	第61-62页
·算法描述	第61-62页
·性能分析	第62页
·为本系统定制一个消重方法	第62-64页
·本章小结	第64-65页
第七章总结与展望	第65-66页
·本文工作总结	第65页
·下一步的工作及展望	第65-66页
参考文献	第66-70页
致谢	第70-71页
在读期间参加的科研项目	第71-72页
在读期间发表录用的学术论文	第72页