首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向校园招聘主题的分布式爬虫系统的设计与实现

摘要第4-5页
Abstract第5-6页
第一章 绪论第9-12页
    1.1 研究背景与意义第9-10页
    1.2 国内外研究概况第10-11页
    1.3 论文主要研究内容第11页
    1.4 论文组织结构第11页
    本章小结第11-12页
第二章 相关技术及理论第12-22页
    2.1 分布式与云计算第12页
    2.2 Hadoop技术第12-16页
        2.2.1 MapReduce分布式并行计算框架第13-15页
        2.2.2 HDFS分布式文件系统第15-16页
    2.3 网络爬虫技术第16-20页
        2.3.1 通用爬虫第16-18页
        2.3.2 主题爬虫第18-19页
        2.3.3 分布式爬虫第19-20页
    2.4 宽度优先抓取策略第20页
    2.5 Solr开源搜索引擎第20-21页
        2.5.1 Solr介绍第20-21页
        2.5.2 Solr特性第21页
    本章小结第21-22页
第三章 招聘信息可靠性度量方法研究第22-28页
    3.1 PageRank链接评分算法第22-24页
        3.1.1 算法背景与思想第22-23页
        3.1.2 算法描述第23-24页
    3.2 招聘信息空间向量表示第24-25页
    3.3 招聘信息可靠性计算第25-27页
        3.3.1 标题文本相似度计算第25-26页
        3.3.2 招聘信息可靠性计算模型第26-27页
    本章小结第27-28页
第四章 校园招聘分布式爬虫系统分析与设计第28-43页
    4.1 系统需求分析第28-29页
    4.2 系统设计第29-42页
        4.2.1 系统总体设计第30-31页
        4.2.2 爬虫模块第31-35页
        4.2.3 索引模块第35-39页
        4.2.4 检索模块第39-40页
        4.2.5 数据库结构第40-42页
    本章小结第42-43页
第五章 校园招聘分布式爬虫系统实现第43-64页
    5.1 系统的部署实现第43-47页
        5.1.1 开发环境第43-44页
        5.1.2 分布式环境搭建第44-47页
    5.2 爬虫模块的实现第47-51页
        5.2.1 爬虫框架搭建第48页
        5.2.2 主题爬虫的实现第48-50页
        5.2.3 招聘信息可靠性度量的实现第50-51页
    5.3 索引模块的实现第51-54页
        5.3.1 配置并建立索引第52-53页
        5.3.2 中文分词的实现第53-54页
    5.4 检索模块的实现第54-58页
        5.4.1 前端用户接口实现第55-56页
        5.4.2 后台检索响应实现第56-58页
    5.5 系统运行与测试第58-63页
        5.5.1 系统运行第58-59页
        5.5.2 系统测试第59-63页
    本章小结第63-64页
结论第64-65页
参考文献第65-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:国际汇出汇款作业管理系统的设计与实现
下一篇:脊柱侧弯矫形器数字化设计软件开发