检索系统中基于Heritrix信息抽取的研究与实现

摘要	第4-6页
ABSTRACT	第6-7页
第一章引言	第10-14页
1.1 课题研究背景	第10-11页
1.2 课题研究意义	第11-12页
1.3 项目开发内容及论文章节结构	第12-14页
第二章检索系统关键技术概述	第14-30页
2.1 搜索引擎	第14-18页
2.1.1 搜索引擎概述	第14-15页
2.1.2 搜索引擎分类	第15-16页
2.1.3 搜索引擎组成结构	第16-18页
2.2 目前开源技术之间比较	第18-23页
2.2.1 索引时间	第19-20页
2.2.2 核心处理器和内存	第20-21页
2.2.3 索引空间占用大小	第21-22页
2.2.4 搜索时间	第22-23页
2.3 网络爬虫关键技术	第23-29页
2.3.1 爬虫基本功能	第23-27页
2.3.2 Java技术	第27页
2.3.3 Heritrix介绍	第27-29页
2.4 本章小结	第29-30页
第三章检索系统分析与概要设计	第30-41页
3.1 系统组成结构	第30-32页
3.2 信息抽取概要设计	第32-39页
3.2.1 网页爬取	第32-37页
3.2.2 信息解析	第37-39页
3.3 页面去重部分概要设计	第39-40页
3.4 本章小结	第40-41页
第四章系统主要功能模块的详细设计与实现	第41-61页
4.1 信息抽取部分的详细设计	第41-42页
4.2 URL注入部分的实现	第42-44页
4.3 网页爬取部分的实现	第44-51页
4.4 信息解析部分的实现	第51-59页
4.4.1 FileConlection接口的实现	第52页
4.4.2 FileParser解析类的实现	第52-56页
4.4.3 元数据标签提取的实现	第56-58页
4.4.4 异常处理的实现	第58-59页
4.5 页面去重部分的实现	第59页
4.6 信息存储部分的实现	第59-60页
4.7 本章小结	第60-61页
第五章面向企业管理平台的信息抽取实验测试与分析	第61-65页
5.1 企业管理平台网站的准备	第61页
5.2 企业管理平台信息抽取多组实验	第61-63页
5.2.1 企业网站信息抽取实验	第61-62页
5.2.2 企业内网信息抽取实验	第62-63页
5.2.3 企业办公自动化终端信息抽取实验	第63页
5.3 本章小结	第63-65页
第六章总结与展望	第65-67页
6.1 论文工作总结	第65页
6.2 问题和展望	第65-67页
参考文献	第67-69页
致谢	第69页