首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于非结构化招聘信息的采集与清洗系统

摘要第4-6页
Abstract第6-7页
第一章 绪论第11-17页
    1.1 研究背景与意义第11-12页
    1.2 现状分析第12-14页
        1.2.1 数据爬虫现状第12-13页
        1.2.2 数据清洗现状第13-14页
    1.3 本文的创新点第14页
    1.4 主要研究内容第14-15页
    1.5 论文的工作及章节安排第15-17页
第二章 基于Scrapy框架数据采集第17-32页
    2.1 网络爬虫技术第17-21页
        2.1.1 网络爬虫介绍第17-18页
        2.1.2 网络爬虫分类第18-21页
    2.2 Scrapy框架第21-25页
        2.2.1 Scrapy框架架构第22-23页
        2.2.2 Scrapy数据流程第23-25页
    2.3 数据采集第25-31页
        2.3.1 抓取URL第26-28页
        2.3.2 获取网页信息第28-29页
        2.3.3 数据存储第29-31页
    2.4 本章总结第31-32页
第三章 基于AC算法数据提取第32-43页
    3.1 AC算法第32-41页
        3.1.1 预处理阶段第32-38页
        3.1.2 字符串匹配阶段第38-41页
    3.2 关键字提取第41-42页
        3.2.1 数据整理阶段第41-42页
        3.2.2 匹配阶段第42页
    3.3 本章小结第42-43页
第四章 基于改进的Skyline算法数据清洗第43-58页
    4.1 Skyline算法第43-46页
        4.1.1 Skyline算法概述第43-44页
        4.1.2 Skyline算法分类第44-45页
        4.1.3 Skyline算法特点第45-46页
    4.2 基本Skyline算法第46-48页
        4.2.1 基本Skyline算法定义第46-47页
        4.2.2 基本Skyline算法实现第47-48页
    4.3 改进Skyline算法第48-52页
        4.3.1 改进思想第48-49页
        4.3.2 可行性计算第49-51页
        4.3.3 改进Skline算法实现第51-52页
    4.4 数据清洗第52-56页
        4.4.1 数据预处理第52-54页
        4.4.2 数据处理第54-56页
    4.5 本章小结第56-58页
第五章 系统测试与统计第58-70页
    5.1 功能测试第58-63页
        5.1.1 数据采集的测试第58-61页
        5.1.2 AC算法数据提取的测试第61-62页
        5.1.3 Skyline算法数据清洗的测试第62-63页
    5.2 二维统计图第63-69页
        5.2.1 平均工资对比第63-64页
        5.2.2 城市职位需求第64-67页
        5.2.3 城市平均薪资第67-69页
    5.3 本章小结第69-70页
第六章 总结与展望第70-72页
    6.1 总结第70-71页
    6.2 展望第71-72页
参考文献第72-76页
致谢第76页

论文共76页,点击 下载论文
上一篇:基于分布式数据库的自来水收费系统的设计与实现
下一篇:网络用户偏好趋势预测系统的研究与实现