首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

职位信息并行抽取系统设计与实现

摘要第4-6页
ABSTRACT第6-7页
第一章 绪论第10-15页
    1.1 研究的背景及意义第10页
    1.2 研究现状第10-12页
    1.3 研究内容第12-13页
    1.4 论文组织结构第13-14页
    1.5 本章小结第14-15页
第二章 WEB信息抽取相关技术第15-27页
    2.1 信息抽取概述第15-21页
        2.1.1 WEB信息抽取的发展阶段第15页
        2.1.2 WEB信息抽取分类第15-20页
        2.1.3 WEB信息抽取介绍第20-21页
    2.2 Hadoop分布式计算平台第21-22页
    2.3 MapReduce并行计算框架第22-23页
    2.4 Spark第23页
    2.5 分布式文件系统HDFS第23-25页
    2.6 分布式数据库HBase第25-26页
    2.7 本章小结第26-27页
第三章 系统的需求分析与总体设计第27-30页
    3.1 需求分析第27-28页
        3.1.1 功能需求第27页
        3.1.2 性能需求第27-28页
    3.2 系统的总体架构设计第28-29页
    3.3 本章小结第29-30页
第四章 职位信息并行化抽取系统设计第30-42页
    4.1 分布式网络爬虫设计第30-32页
    4.2 基于正则化职位信息并行抽取第32-37页
        4.2.1 HTMLParser页面解析第32-34页
        4.2.2 基于正则化抽取规则的制定第34页
        4.2.3 职位信息模板的生成第34-35页
        4.2.4 职位信息抽取方法第35-36页
        4.2.5 职位信息并行抽取架构第36-37页
    4.3 职位信息去重第37-39页
        4.3.1 职位信息去重方法第37-38页
        4.3.2 职位信息去重算法第38-39页
    4.4 职位信息索引设计第39页
    4.5 职位信息存储设计第39-40页
    4.6 职位信息搜索服务设计第40-41页
    4.7 本章小结第41-42页
第五章 职位信息并行抽取的实现第42-58页
    5.1 系统实现架构图第42-43页
    5.2 系统部署实现第43-46页
        5.2.1 开发环境第43页
        5.2.2 系统环境搭建第43-46页
    5.3 职位信息抽取系统实现第46-51页
        5.3.1 职位信息抓取模块实现第46-47页
        5.3.2 职位信息并行抽取模块实现第47-49页
        5.3.3 职位信息去重模块实现第49-50页
        5.3.4 职位信息搜索服务实现第50-51页
    5.4 职位信息抽取测试与运行界面展示第51-56页
        5.4.1 信息抽取系统的评测方法第51-52页
        5.4.2 功能测试及分析第52-53页
        5.4.3 职位信息抽取测试及分析第53-54页
        5.4.4 职位信息并行抽取测试及分析第54-55页
        5.4.5 职位信息去重测试及分析第55页
        5.4.6 运行界面展示第55-56页
    5.5 本章小结第56-58页
第六章 总结和展望第58-60页
    6.1 总结第58-59页
    6.2 展望第59-60页
致谢第60-61页
参考文献第61-64页
攻读硕士学位期间发表的学术论文第64页

论文共64页,点击 下载论文
上一篇:基于物联网的智慧照明安全服务平台关键技术的研究
下一篇:基于主成分分析的网络舆情快速预测方法