面向远程教育主题搜索引擎的研究与实现

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-15页
·引言	第7页
·选题背景及意义	第7-11页
·远程教育的发展	第7-9页
·搜索引擎和主题搜索引擎	第9-10页
·远程教育主题搜索引擎研究现状	第10-11页
·论文的主要工作	第11-12页
·论文的结构	第12-15页
第二章搜索引擎相关原理及技术	第15-29页
·搜索引擎	第15-21页
·搜索引擎的发展史	第15-18页
·搜索引擎的分类	第18-19页
·搜索引擎的工作原理	第19页
·搜索引擎的体系结构	第19-21页
·主题搜索引擎	第21-22页
·主题搜索引擎的定义	第21-22页
·主题搜索引擎的优势	第22页
·国内外现有优秀的主题搜索引擎	第22-24页
·国外优秀的主题搜索引擎	第22-24页
·国内优秀的主题搜索引擎	第24页
·Lucene 软件包介绍	第24-25页
·什么是 Lucene	第24-25页
·Lucene 的特点和优势	第25页
·Heritrix 简介	第25-26页
·HTMLParser 简介	第26-29页
·HTMLParser 介绍	第26页
·HTMLParser 功能和特性	第26-29页
第三章基于 Lucene/Heritrix 搜索引擎系统设计	第29-41页
·基于 Lucene 的索引与搜索系统	第29-34页
·Lucene 系统结构	第29-31页
·Lucene 索引核心类	第31-33页
·Lucene 搜索核心类	第33-34页
·小结	第34页
·基于 Heritrix 的下载系统	第34-38页
·Heritrix 的系统结构	第34-35页
·Heritrix 核心组件	第35-36页
·Heritrix 的扩展与定制方法	第36-38页
·小结	第38页
·基于 HTMLParser 网页信息提取	第38-40页
·HTMLParser 词法分析的工作原理	第38-39页
·三种解析方法的比较	第39页
·小结	第39-40页
·基于 Lucene/Heritrix 搜索引擎系统设计	第40-41页
第四章基于 Heritrix 主题爬虫算法设计与分析	第41-51页
·主题选择	第41页
·主题词库的建立	第41-42页
·远程教育领域主题爬虫算法	第42-48页
·自定义 Extractor 的解决方案及实现	第43-46页
·自定义 FrontierScheduler 的方案及实现	第46-47页
·多线程抓取	第47页
·去除 robots.txt 限制	第47-48页
·实验结果分析	第48-51页
第五章远程教育主题搜索引擎设计与实现	第51-67页
·系统设计目标	第51-52页
·系统总体结构	第52-53页
·系统各模块具体实现	第53-64页
·网页抓取子系统的设计与实现	第53-57页
·信息抽取子系统的设计与实现	第57-59页
·信息索引子系统的设计与实现	第59-60页
·信息检索子系统的设计与实现	第60-64页
·系统实现效果	第64-65页
·系统性能评估	第65-67页
第六章总结与展望	第67-69页
·论文总结	第67页
·展望	第67-69页
致谢	第69-71页
参考文献	第71-74页