摘要 | 第4-6页 |
ABSTRACT | 第6-7页 |
第一章 引言 | 第10-14页 |
1.1 课题研究背景 | 第10-11页 |
1.2 课题研究意义 | 第11-12页 |
1.3 项目开发内容及论文章节结构 | 第12-14页 |
第二章 检索系统关键技术概述 | 第14-30页 |
2.1 搜索引擎 | 第14-18页 |
2.1.1 搜索引擎概述 | 第14-15页 |
2.1.2 搜索引擎分类 | 第15-16页 |
2.1.3 搜索引擎组成结构 | 第16-18页 |
2.2 目前开源技术之间比较 | 第18-23页 |
2.2.1 索引时间 | 第19-20页 |
2.2.2 核心处理器和内存 | 第20-21页 |
2.2.3 索引空间占用大小 | 第21-22页 |
2.2.4 搜索时间 | 第22-23页 |
2.3 网络爬虫关键技术 | 第23-29页 |
2.3.1 爬虫基本功能 | 第23-27页 |
2.3.2 Java技术 | 第27页 |
2.3.3 Heritrix介绍 | 第27-29页 |
2.4 本章小结 | 第29-30页 |
第三章 检索系统分析与概要设计 | 第30-41页 |
3.1 系统组成结构 | 第30-32页 |
3.2 信息抽取概要设计 | 第32-39页 |
3.2.1 网页爬取 | 第32-37页 |
3.2.2 信息解析 | 第37-39页 |
3.3 页面去重部分概要设计 | 第39-40页 |
3.4 本章小结 | 第40-41页 |
第四章 系统主要功能模块的详细设计与实现 | 第41-61页 |
4.1 信息抽取部分的详细设计 | 第41-42页 |
4.2 URL注入部分的实现 | 第42-44页 |
4.3 网页爬取部分的实现 | 第44-51页 |
4.4 信息解析部分的实现 | 第51-59页 |
4.4.1 FileConlection接口的实现 | 第52页 |
4.4.2 FileParser解析类的实现 | 第52-56页 |
4.4.3 元数据标签提取的实现 | 第56-58页 |
4.4.4 异常处理的实现 | 第58-59页 |
4.5 页面去重部分的实现 | 第59页 |
4.6 信息存储部分的实现 | 第59-60页 |
4.7 本章小结 | 第60-61页 |
第五章 面向企业管理平台的信息抽取实验测试与分析 | 第61-65页 |
5.1 企业管理平台网站的准备 | 第61页 |
5.2 企业管理平台信息抽取多组实验 | 第61-63页 |
5.2.1 企业网站信息抽取实验 | 第61-62页 |
5.2.2 企业内网信息抽取实验 | 第62-63页 |
5.2.3 企业办公自动化终端信息抽取实验 | 第63页 |
5.3 本章小结 | 第63-65页 |
第六章 总结与展望 | 第65-67页 |
6.1 论文工作总结 | 第65页 |
6.2 问题和展望 | 第65-67页 |
参考文献 | 第67-69页 |
致谢 | 第69页 |