首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

分布式垂直搜索抓取平台的研究与设计

摘要第5-6页
ABSTRACT第6页
第1章 绪论第12-17页
    1.1 选题背景第12-13页
    1.2 研究意义第13页
    1.3 国内外研究和应用现状第13-16页
        1.3.1 国外现状第13-15页
        1.3.2 国内现状第15-16页
    1.4 本文主要工作第16页
    1.5 论文结构第16-17页
第2章 垂直抓取的基本概念与关键技术第17-25页
    2.1 基本概念第17-18页
    2.2 垂直抓取的对象第18-19页
        2.2.1 列表页第18-19页
        2.2.2 详情页第19页
    2.3 数据模型第19-21页
    2.4 数据实例的HTML标记编码第21-22页
    2.5 基于地标的WEB信息抽取方式第22-24页
    2.6 小结第24-25页
第3章 平台系统需求及关键问题分析第25-33页
    3.1 垂直抓取平台体系第25-26页
        3.1.1 抓取的对象第25页
        3.1.2 抓取信息所采用的方式第25-26页
        3.1.3 抓取信息所采用的抓取流程设计第26页
    3.2 系统功能性需求分析第26-32页
        3.2.1 运营操作功能需求分析第26-28页
        3.2.2 信息抓取功能需求分析第28-30页
        3.2.3 抓取效率性能需求分析第30-32页
    3.3 抓取平台系统的难点第32页
    3.4 小结第32-33页
第4章 分布式垂直搜索抓取平台系统的设计第33-48页
    4.1 系统设计的目标和原则第33-34页
    4.2 系统的总体设计及流程图第34-35页
    4.3 系统开发环境介绍第35-36页
        4.3.1 系统的硬件环境资源第35-36页
        4.3.2 系统的软件环境资源第36页
    4.4 操作页面设计第36-41页
        4.4.1 权限及报警管理界面第37-38页
        4.4.2 抓取规则的配置界面第38-39页
        4.4.3 抓取任务的调度界面第39-41页
        4.4.4 抓取任务运行状况界面第41页
    4.5 分布式抓取的核心模块设计第41-46页
        4.5.1 分布式任务调度模块第41-43页
        4.5.2 抓取频度控制模块第43-44页
        4.5.3 页面下载模块第44-45页
        4.5.4 页面信息抽取模块第45-46页
        4.5.5 后续入库模块第46页
    4.6 抓取异常通知第46-47页
    4.7 小结第47-48页
第5章 自动纠错机制第48-58页
    5.1 网页信息去噪第49-52页
    5.2 信息属性识别第52-54页
    5.3 抓取规则生成第54-57页
    5.4 小结第57-58页
第6章 抓取平台系统的实现和测试第58-66页
    6.1 抓取平台的关键模块实现第58-60页
    6.2 抓取平台的功能测试第60-61页
    6.3 抓取平台的性能测试第61-64页
    6.4 抓取实测效果分析第64-65页
        6.4.1 系统非功能性测试第65页
    6.5 小结第65-66页
结论第66-68页
参考文献第68-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:党校培训管理系统的设计与实现
下一篇:Hadoop平台中作业调度算法分析与改进研究