| 摘要 | 第1-4页 |
| Abstract | 第4-7页 |
| 第一章 绪论 | 第7-15页 |
| ·引言 | 第7页 |
| ·选题背景及意义 | 第7-11页 |
| ·远程教育的发展 | 第7-9页 |
| ·搜索引擎和主题搜索引擎 | 第9-10页 |
| ·远程教育主题搜索引擎研究现状 | 第10-11页 |
| ·论文的主要工作 | 第11-12页 |
| ·论文的结构 | 第12-15页 |
| 第二章 搜索引擎相关原理及技术 | 第15-29页 |
| ·搜索引擎 | 第15-21页 |
| ·搜索引擎的发展史 | 第15-18页 |
| ·搜索引擎的分类 | 第18-19页 |
| ·搜索引擎的工作原理 | 第19页 |
| ·搜索引擎的体系结构 | 第19-21页 |
| ·主题搜索引擎 | 第21-22页 |
| ·主题搜索引擎的定义 | 第21-22页 |
| ·主题搜索引擎的优势 | 第22页 |
| ·国内外现有优秀的主题搜索引擎 | 第22-24页 |
| ·国外优秀的主题搜索引擎 | 第22-24页 |
| ·国内优秀的主题搜索引擎 | 第24页 |
| ·Lucene 软件包介绍 | 第24-25页 |
| ·什么是 Lucene | 第24-25页 |
| ·Lucene 的特点和优势 | 第25页 |
| ·Heritrix 简介 | 第25-26页 |
| ·HTMLParser 简介 | 第26-29页 |
| ·HTMLParser 介绍 | 第26页 |
| ·HTMLParser 功能和特性 | 第26-29页 |
| 第三章 基于 Lucene/Heritrix 搜索引擎系统设计 | 第29-41页 |
| ·基于 Lucene 的索引与搜索系统 | 第29-34页 |
| ·Lucene 系统结构 | 第29-31页 |
| ·Lucene 索引核心类 | 第31-33页 |
| ·Lucene 搜索核心类 | 第33-34页 |
| ·小结 | 第34页 |
| ·基于 Heritrix 的下载系统 | 第34-38页 |
| ·Heritrix 的系统结构 | 第34-35页 |
| ·Heritrix 核心组件 | 第35-36页 |
| ·Heritrix 的扩展与定制方法 | 第36-38页 |
| ·小结 | 第38页 |
| ·基于 HTMLParser 网页信息提取 | 第38-40页 |
| ·HTMLParser 词法分析的工作原理 | 第38-39页 |
| ·三种解析方法的比较 | 第39页 |
| ·小结 | 第39-40页 |
| ·基于 Lucene/Heritrix 搜索引擎系统设计 | 第40-41页 |
| 第四章 基于 Heritrix 主题爬虫算法设计与分析 | 第41-51页 |
| ·主题选择 | 第41页 |
| ·主题词库的建立 | 第41-42页 |
| ·远程教育领域主题爬虫算法 | 第42-48页 |
| ·自定义 Extractor 的解决方案及实现 | 第43-46页 |
| ·自定义 FrontierScheduler 的方案及实现 | 第46-47页 |
| ·多线程抓取 | 第47页 |
| ·去除 robots.txt 限制 | 第47-48页 |
| ·实验结果分析 | 第48-51页 |
| 第五章 远程教育主题搜索引擎设计与实现 | 第51-67页 |
| ·系统设计目标 | 第51-52页 |
| ·系统总体结构 | 第52-53页 |
| ·系统各模块具体实现 | 第53-64页 |
| ·网页抓取子系统的设计与实现 | 第53-57页 |
| ·信息抽取子系统的设计与实现 | 第57-59页 |
| ·信息索引子系统的设计与实现 | 第59-60页 |
| ·信息检索子系统的设计与实现 | 第60-64页 |
| ·系统实现效果 | 第64-65页 |
| ·系统性能评估 | 第65-67页 |
| 第六章 总结与展望 | 第67-69页 |
| ·论文总结 | 第67页 |
| ·展望 | 第67-69页 |
| 致谢 | 第69-71页 |
| 参考文献 | 第71-74页 |