首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向信息安全的垂直搜索引擎的研究与实现

摘要第1-6页
Abstract第6-9页
第一章 引言第9-14页
   ·研究背景第9-10页
   ·搜索引擎的发展历史第10-11页
   ·垂直搜索引擎的特点第11页
   ·垂直搜索引擎国内外研究现状第11-12页
   ·论文的主要研究内容第12-13页
   ·论文的章节安排第13-14页
第二章 垂直搜索引擎原理与HERITRIX技术第14-20页
   ·垂直搜索引擎的原理第14-15页
   ·开源爬虫HERITRIX介绍第15-18页
     ·Heritrix项目介绍第15-16页
     ·Heritrix的系统架构第16-18页
   ·HERITRIX主题化扩展第18-19页
   ·本章小结第19-20页
第三章 全文检索引擎LUCENE剖析第20-29页
   ·LUCENE概述第20-22页
     ·Lucene项目介绍第20页
     ·Lucene系统架构第20-22页
   ·LUCENE索引技术第22-24页
     ·Lucene倒排索引方法第22-23页
     ·Lucene索引的结构第23-24页
   ·LUCENE检索技术第24-25页
     ·Lucene检索流程第24-25页
     ·Lucene检索类介绍第25页
   ·LUCENE排序技术第25-26页
     ·信息检索模型第25-26页
     ·Lucene排序算法介绍第26页
   ·LUCENE排序算法改进第26-28页
   ·本章小结第28-29页
第四章 垂直搜索引擎系统的设计与实现第29-48页
   ·信息安全垂直搜索引擎需求分析第29-30页
   ·信息安全垂直搜索引擎总体架构设计第30-31页
   ·爬虫系统的扩展设计与实现第31-35页
     ·Heritrix扩展概述第31页
     ·设定爬虫URL第31页
     ·扩展FrontierScheduler抓取特定内容第31-32页
     ·取消爬虫对robots.txt的访问第32页
     ·扩展Queue-assignment-policy提高多线程抓取性能第32-35页
   ·网页解析子系统的设计与实现第35-38页
     ·网页解析子系统主要工具jsoup介绍第35-36页
     ·jsoup解析具体实施过程第36-38页
   ·索引子系统的设计与实现第38-41页
     ·索引子系统设计第38-39页
     ·JE中文分词器引入第39页
     ·索引子系统实现第39-41页
   ·查询子系统的设计与实现第41-47页
     ·查询子系统设计第41-44页
     ·改进的排序算法的实现第44-47页
   ·本章小结第47-48页
第五章 系统对比测试第48-56页
   ·垂直搜索引擎与通用搜索引擎搜索结果对比第48-50页
   ·爬虫性能改进前后对比第50-53页
     ·默认最大线程数量下爬虫改进前后抓取性能测试第50-51页
     ·设定不同最多线程数量及不同时间下爬虫改进后抓取性能测试第51-53页
   ·LUCENE排序算法改进前后对比第53-55页
   ·本章小结第55-56页
第六章 总结与展望第56-57页
   ·论文总结第56页
   ·工作展望第56-57页
参考文献第57-60页
致谢第60页

论文共60页,点击 下载论文
上一篇:基于TAG的时空数据挖掘算法的研究
下一篇:车辆牌照定位算法的设计与实现