首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Heritrix和Lucene垂直搜索引擎的应用研究

摘要第1-4页
Abstract第4-5页
目录第5-9页
第一章 绪论第9-17页
   ·引言第9页
   ·搜索引擎的发展历程第9-11页
   ·垂直搜索引擎第11-14页
     ·垂直搜索引擎简介第11-12页
     ·垂直搜索引擎与通用搜索引擎的区别第12-13页
     ·垂直搜索引擎的优缺点第13页
     ·搜索引擎的现状与发展第13-14页
   ·论文的主要研究内容第14页
   ·论文的组织结构第14-17页
第二章 垂直搜索关键技术研究与分析第17-29页
   ·垂直搜索关键技术简介第17页
   ·网络爬虫技术第17-20页
     ·爬虫的基本原理第17-18页
     ·爬虫的架构第18-19页
     ·网页抓取第19-20页
   ·网页信息结构化抽取第20-22页
     ·网页信息的结构化抽取方式第20-21页
     ·结构化信息抽取系统的结构第21-22页
     ·中文网页结构化信息抽取的难点第22页
   ·中文分词技术第22-24页
     ·基于字符串匹配的分词方法第23页
     ·基于知识理解的分词方法第23页
     ·基于词频统计的分词方法第23-24页
   ·Lucene的索引与搜索第24-27页
     ·Lucene的索引工具第24-25页
     ·Lucene的索引建立第25-26页
     ·Lucene搜索第26-27页
   ·本章小结第27-29页
第三章 网络爬虫Heritrix的改进与功能扩展第29-43页
   ·Heritrix的结构研究第29-30页
   ·Heritrix的改进与使用第30-37页
     ·Heritrix的抓取配置改进第30-34页
     ·Heritrix的使用第34-37页
   ·Heritrix的功能扩展第37-41页
     ·Heritrix的抓取功能研究第37-38页
     ·Heritrix中扩展开发所要抓取网页的定制类第38-39页
     ·Heritrix的多线程抓取扩展第39-41页
   ·本章小结第41-43页
第四章 基于Lucene基础算法和PageRank思想的改进算法第43-51页
   ·Lucene的基础排序算法第43-44页
     ·算法描述第43页
     ·算法存在的问题第43-44页
   ·PageRank算法第44-46页
     ·算法思想第44-45页
     ·算法分析第45-46页
   ·Lucene改进的排序算法第46-49页
     ·改进的排序算法思想第46-47页
     ·改进的排序算法实现第47-49页
   ·本章小结第49-51页
第五章 数码相机垂直搜索引擎的设计与实现第51-65页
   ·实现的基本功能第51-52页
   ·系统的架构分析与模块设计第52-53页
   ·系统的实现过程第53-57页
     ·环境配置第53页
     ·爬虫系统的设计与实现第53-55页
     ·页面解析系统的设计与实现第55-57页
   ·索引系统的设计与实现第57-60页
     ·数据库结构和索引结构的建立第58-59页
     ·添加数据库记录并建立索引第59-60页
   ·查询系统的设计与实现第60-65页
     ·查询系统前台页面的实现第60-61页
     ·查询系统后台的实现第61-62页
     ·系统运行第62-65页
第六章 垂直搜索系统测试第65-71页
   ·系统测试环境第65页
   ·系统测试对比第65-70页
     ·Heritrix爬虫改进前后性能测试对比第65-67页
     ·垂直搜索引擎相对通用搜索引擎的优势对比测试第67-69页
     ·Lucene排序算法改进前后的的搜索效果对比测试第69-70页
   ·本章小结第70-71页
第七章 总结和展望第71-73页
   ·本文总结第71页
   ·今后展望第71-73页
致谢第73-75页
参考文献第75-79页
附录A 攻读硕士学位期间发表论文及实践情况第79页

论文共79页,点击 下载论文
上一篇:基于奇异值分解和稀疏表示的人脸识别
下一篇:优先级周期性互换的实时多任务调度方法研究