首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于垂直搜索技术的互联网公开文档搜集系统

中文摘要第3-4页
Abstract第4页
第一章 引言第7-12页
    1.1 研究的背景与意义第7-8页
        1.1.1 研究的背景第7页
        1.1.2 研究的意义第7-8页
        1.1.3 研究对经济社会发展的作用第8页
    1.2 国内外的研究现状第8-10页
        1.2.1 垂直搜索的定义第8-9页
        1.2.2 垂直搜索的研究现状第9-10页
        1.2.3 文档垂直搜索服务第10页
    1.3 研究目的和研究内容第10-11页
        1.3.1 研究目的第10-11页
        1.3.2 研究内容第11页
    1.4 论文结构第11-12页
第二章 理论基础第12-31页
    2.1 主题网络爬虫技术第12-16页
        2.1.1 主题网络爬虫的定义第12页
        2.1.2 主题网络爬虫的工作原理第12-13页
        2.1.3 主题网络爬虫的搜索策略第13-15页
        2.1.4 开源的主题网络爬虫策略第15-16页
    2.2 元搜索技术第16-19页
        2.2.1 元搜索技术概述第16-17页
        2.2.2 元搜索工作原理第17-18页
        2.2.3 元搜索的特点第18页
        2.2.4 采集型元搜索技术第18-19页
    2.3 Web信息抽取技术第19-25页
        2.3.1 Web信息抽取技术概述第19页
        2.3.2 HTML基本语法分析第19-21页
        2.3.3 HTML网页的预处理第21页
        2.3.4 Web信息内容的抽取第21-25页
    2.4 基于Lucene的索引与搜索技术第25-30页
        2.4.1 Lucene概述第25-27页
        2.4.2 Lucene的索引技术第27-28页
        2.4.3 Lucene的搜索技术第28-29页
        2.4.4 文本分词技术第29-30页
    2.5 本章小结第30-31页
第三章 系统设计与实现第31-49页
    3.1 系统概述第31-32页
    3.2 目标定义第32-33页
        3.2.1 使用需求的定义第32页
        3.2.2 检索数据的定义第32-33页
    3.3 难点处理和技术实现第33-48页
        3.3.1 指定网站文档采集的优化方案第33-39页
        3.3.2 通用搜索引擎的文档采集策略第39-44页
        3.3.3 文档索引检索功能的实现方案第44-48页
    3.4 本章小结第48-49页
第四章 系统实验与结果分析第49-80页
    4.1 实验环境第49页
    4.2 系统功能第49-58页
        4.2.1 文件操作功能第49-50页
        4.2.2 模式操作功能第50-55页
        4.2.3 设置操作功能第55-58页
        4.2.4 抓取操作功能第58页
    4.3 实验结果与分析第58-78页
        4.3.1 指定网站信息抓取模式的功能实验第58-65页
        4.3.2 网络文档信息抓取模式的功能实验第65-70页
        4.3.3 自建索引和百度索引二次搜索模式的功能实验第70-78页
    4.4 本章小结第78-80页
第五章 总结和展望第80-82页
    5.1 研究工作总结第80页
    5.2 论文的创新点第80-81页
    5.3 后续研究展望第81-82页
参考文献第82-85页
致谢第85-86页
个人简历第86-87页
攻读硕士期间的研究经历与成果第87页

论文共87页,点击 下载论文
上一篇:某高校学生信息管理系统的设计与实现
下一篇:基于VxWorks的DCS下位控制站的软件设计与开发