摘要 | 第1-4页 |
Abstract | 第4-7页 |
第一章 绪论 | 第7-15页 |
·引言 | 第7页 |
·选题背景及意义 | 第7-11页 |
·远程教育的发展 | 第7-9页 |
·搜索引擎和主题搜索引擎 | 第9-10页 |
·远程教育主题搜索引擎研究现状 | 第10-11页 |
·论文的主要工作 | 第11-12页 |
·论文的结构 | 第12-15页 |
第二章 搜索引擎相关原理及技术 | 第15-29页 |
·搜索引擎 | 第15-21页 |
·搜索引擎的发展史 | 第15-18页 |
·搜索引擎的分类 | 第18-19页 |
·搜索引擎的工作原理 | 第19页 |
·搜索引擎的体系结构 | 第19-21页 |
·主题搜索引擎 | 第21-22页 |
·主题搜索引擎的定义 | 第21-22页 |
·主题搜索引擎的优势 | 第22页 |
·国内外现有优秀的主题搜索引擎 | 第22-24页 |
·国外优秀的主题搜索引擎 | 第22-24页 |
·国内优秀的主题搜索引擎 | 第24页 |
·Lucene 软件包介绍 | 第24-25页 |
·什么是 Lucene | 第24-25页 |
·Lucene 的特点和优势 | 第25页 |
·Heritrix 简介 | 第25-26页 |
·HTMLParser 简介 | 第26-29页 |
·HTMLParser 介绍 | 第26页 |
·HTMLParser 功能和特性 | 第26-29页 |
第三章 基于 Lucene/Heritrix 搜索引擎系统设计 | 第29-41页 |
·基于 Lucene 的索引与搜索系统 | 第29-34页 |
·Lucene 系统结构 | 第29-31页 |
·Lucene 索引核心类 | 第31-33页 |
·Lucene 搜索核心类 | 第33-34页 |
·小结 | 第34页 |
·基于 Heritrix 的下载系统 | 第34-38页 |
·Heritrix 的系统结构 | 第34-35页 |
·Heritrix 核心组件 | 第35-36页 |
·Heritrix 的扩展与定制方法 | 第36-38页 |
·小结 | 第38页 |
·基于 HTMLParser 网页信息提取 | 第38-40页 |
·HTMLParser 词法分析的工作原理 | 第38-39页 |
·三种解析方法的比较 | 第39页 |
·小结 | 第39-40页 |
·基于 Lucene/Heritrix 搜索引擎系统设计 | 第40-41页 |
第四章 基于 Heritrix 主题爬虫算法设计与分析 | 第41-51页 |
·主题选择 | 第41页 |
·主题词库的建立 | 第41-42页 |
·远程教育领域主题爬虫算法 | 第42-48页 |
·自定义 Extractor 的解决方案及实现 | 第43-46页 |
·自定义 FrontierScheduler 的方案及实现 | 第46-47页 |
·多线程抓取 | 第47页 |
·去除 robots.txt 限制 | 第47-48页 |
·实验结果分析 | 第48-51页 |
第五章 远程教育主题搜索引擎设计与实现 | 第51-67页 |
·系统设计目标 | 第51-52页 |
·系统总体结构 | 第52-53页 |
·系统各模块具体实现 | 第53-64页 |
·网页抓取子系统的设计与实现 | 第53-57页 |
·信息抽取子系统的设计与实现 | 第57-59页 |
·信息索引子系统的设计与实现 | 第59-60页 |
·信息检索子系统的设计与实现 | 第60-64页 |
·系统实现效果 | 第64-65页 |
·系统性能评估 | 第65-67页 |
第六章 总结与展望 | 第67-69页 |
·论文总结 | 第67页 |
·展望 | 第67-69页 |
致谢 | 第69-71页 |
参考文献 | 第71-74页 |