首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

检索系统中基于Heritrix信息抽取的研究与实现

摘要第4-6页
ABSTRACT第6-7页
第一章 引言第10-14页
    1.1 课题研究背景第10-11页
    1.2 课题研究意义第11-12页
    1.3 项目开发内容及论文章节结构第12-14页
第二章 检索系统关键技术概述第14-30页
    2.1 搜索引擎第14-18页
        2.1.1 搜索引擎概述第14-15页
        2.1.2 搜索引擎分类第15-16页
        2.1.3 搜索引擎组成结构第16-18页
    2.2 目前开源技术之间比较第18-23页
        2.2.1 索引时间第19-20页
        2.2.2 核心处理器和内存第20-21页
        2.2.3 索引空间占用大小第21-22页
        2.2.4 搜索时间第22-23页
    2.3 网络爬虫关键技术第23-29页
        2.3.1 爬虫基本功能第23-27页
        2.3.2 Java技术第27页
        2.3.3 Heritrix介绍第27-29页
    2.4 本章小结第29-30页
第三章 检索系统分析与概要设计第30-41页
    3.1 系统组成结构第30-32页
    3.2 信息抽取概要设计第32-39页
        3.2.1 网页爬取第32-37页
        3.2.2 信息解析第37-39页
    3.3 页面去重部分概要设计第39-40页
    3.4 本章小结第40-41页
第四章 系统主要功能模块的详细设计与实现第41-61页
    4.1 信息抽取部分的详细设计第41-42页
    4.2 URL注入部分的实现第42-44页
    4.3 网页爬取部分的实现第44-51页
    4.4 信息解析部分的实现第51-59页
        4.4.1 FileConlection接口的实现第52页
        4.4.2 FileParser解析类的实现第52-56页
        4.4.3 元数据标签提取的实现第56-58页
        4.4.4 异常处理的实现第58-59页
    4.5 页面去重部分的实现第59页
    4.6 信息存储部分的实现第59-60页
    4.7 本章小结第60-61页
第五章 面向企业管理平台的信息抽取实验测试与分析第61-65页
    5.1 企业管理平台网站的准备第61页
    5.2 企业管理平台信息抽取多组实验第61-63页
        5.2.1 企业网站信息抽取实验第61-62页
        5.2.2 企业内网信息抽取实验第62-63页
        5.2.3 企业办公自动化终端信息抽取实验第63页
    5.3 本章小结第63-65页
第六章 总结与展望第65-67页
    6.1 论文工作总结第65页
    6.2 问题和展望第65-67页
参考文献第67-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:雷达系统与IMT-Advanced系统干扰共存研究
下一篇:人体围度视觉测量方法的研究