首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题(topical)crawler及其应用——主题搜索引擎

第一章 前言第1-12页
   ·引言第8页
   ·有关主题CRAWLER的论文小结第8-10页
   ·本论文的主要内容和结构第10-12页
第二章 搜索引擎的结构第12-14页
   ·系统概述第12页
   ·搜索引擎的构成第12-13页
     ·网络机器人第12-13页
     ·索引与搜索第13页
     ·Web服务器第13页
   ·搜索引擎的主要指标及分析第13页
   ·小结第13-14页
第三章 网络机器人第14-38页
   ·什么是网络机器人第14页
   ·网络机器人的结构分析第14页
   ·对JEFFHEATON的BOT的分析第14-23页
     ·HTML的解析第14-15页
     ·Spider程序结构第15-17页
     ·Spider程序的构造第17-19页
     ·Spider采用的提高程序性能的技术第19-20页
     ·网络机器人的代码分析第20-23页
   ·对SPIDER的改进第23-30页
     ·优先级队列第23页
     ·HTML解析的改进第23-27页
     ·通用的输入输出接口第27-28页
     ·中文分词第28-29页
     ·crawler算法第29-30页
   ·CRAWLER的评价第30-32页
     ·页重要性第31页
     ·总结分析第31-32页
   ·网页更新第32-37页
     ·网页更新的提出第32-33页
     ·网页更新的基本概念第33-34页
       ·重要性(popularity)第33页
       ·时新性(freshness)第33-34页
       ·年龄(age)第34页
     ·Web页面更新的基本策略第34-35页
       ·分类更新策略提出的背景第34页
       ·分类更新策略的基本思想第34-35页
     ·分类算法的改进算法第35-37页
       ·结合重要性与时新性的算法第35-37页
     ·改进算法的小结第37页
   ·小结第37-38页
第四章 基于LUCENE的索引与搜索第38-45页
   ·什么是LUCENE全文检索第38页
   ·LUCENE的原理分析第38-41页
     ·全文检索的实现机制第38-39页
     ·Lucene的索引效率第39-40页
     ·中文切分词机制第40-41页
   ·LUCENE与SPIDER的结合第41-44页
   ·小结第44-45页
第五章 基于TOMCAT的WEB服务器第45-50页
   ·什么是基于TOMCAT的WEB服务器第45页
   ·用户接口设计第45-48页
     ·客户端设计第45-46页
     ·服务端设计第46-48页
   ·在TOMCAT上部署项目第48-49页
   ·小结第49-50页
总结第50-52页
附录1SWING HTML解析器能够识别75个HTML标签的清单第52-54页
附录2SWING HTML解析器能够识别的80个HTML属性清单第54-56页
参考文献第56-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:我国粮食安全问题研究
下一篇:基于DSP的异步电机SVPWM矢量控制系统的研究