首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎系统网页消重的研究与实现

摘要第1-10页
ABSTRACT第10-12页
第1章 绪论第12-17页
   ·研究的背景和现状第12-15页
     ·研究的背景第12页
     ·搜索引擎技术的现状第12-14页
     ·目前搜索系统的缺陷和不足第14页
     ·搜索引擎技术的发展趋势第14-15页
   ·研究的动机和本文的工作第15-17页
第2章 搜索引擎及其关键技术第17-29页
   ·搜索引擎概述第17-19页
     ·体系结构第17-18页
     ·性能评价指标第18-19页
   ·搜索系统关键技术分析第19-22页
     ·采集器第19-20页
     ·索引器第20页
     ·排序器第20-21页
     ·用户接口第21-22页
   ·索引与检索第22-25页
     ·倒排索引第22-24页
     ·检索第24-25页
   ·中文分词第25-28页
   ·本章小结第28-29页
第3章 基于特征串提取的服务器端网页消重算法第29-45页
   ·重复网页的产生和消重的意义第29页
   ·现有消重算法简介第29-32页
     ·排除相同URL 的网页消重方法第30页
     ·基于聚类的网页消重方法第30-31页
     ·基于签名的方法第31页
     ·基于特征码的方法第31-32页
   ·改进的基于特征码的网页消重算法第32-40页
     ·网页的重复特点第32-33页
     ·特征码的提取第33-35页
     ·基于特征码的网页消重算法第35-38页
     ·实现步骤第38-39页
     ·算法有效性分析第39-40页
   ·服务器端消重的算法实现流程第40-41页
   ·实验及分析第41-44页
   ·本章小结第44-45页
第4章 基于关键词上下文匹配的客户端网页消重算法第45-58页
   ·搜索系统的客户端代理技术第45-47页
     ·概述第45-46页
     ·Agent 技术第46页
     ·搜索系统客户端Agent第46-47页
   ·基于关键词上下文匹配的网页消重算法第47-55页
     ·网页重复的特点第47-48页
     ·基于关键词上下文匹配的网页消重算法设计第48-54页
     ·算法优化第54-55页
   ·实验及分析第55-57页
   ·本章小结第57-58页
第5章 搜索引擎系统的设计和实现第58-75页
   ·基于JAVA 的全文检索引擎包——LUCENE第58-63页
     ·Lucene 简介第58-59页
     ·Lucene 的包结构第59-60页
     ·Lucene 的文档格式第60-61页
     ·Lucene 数据流分析第61-63页
   ·系统和模块设计第63页
   ·搜索系统的实现第63-71页
     ·建立索引过程第64-66页
     ·Lucene 搜索第66-68页
     ·Lucene 的分析器第68-69页
     ·中文分词的实现第69-70页
     ·对搜索结果的排序第70-71页
   ·网页消重算法的实现第71-74页
     ·基于特征串提取的网页消重算法的实现第71-73页
     ·基于关键词上下文匹配的网页消重算法的实现第73-74页
   ·本章小结第74-75页
第6章 结论第75-77页
   ·全文工作总结第75页
   ·进一步的工作第75-77页
参考文献第77-81页
致谢第81-82页
附录A 攻读学位期间所发表的学术论文目录第82页

论文共82页,点击 下载论文
上一篇:诱抗型水稻种衣剂的初步研究与效果
下一篇:悲秋辞赋的文化阐释