首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

分布式信息抽取系统在物流领域中的应用

摘要第4-6页
abstract第6-7页
第一章 绪论第11-17页
    1.1 研究的背景及意义第11-12页
    1.2 国内外研究现状第12-14页
    1.3 论文主要内容第14-15页
    1.4 论文组织结构第15-16页
    1.5 本章小结第16-17页
第二章 相关技术研究第17-23页
    2.1 分布式爬虫相关技术第17-18页
        2.1.1 Redis技术第17页
        2.1.2 Scrapy爬虫框架第17-18页
        2.1.3 Scrapy-redis分布式网络爬虫组件第18页
    2.2 信息抽取相关技术第18-21页
        2.2.1 WEB信息抽取介绍第18-19页
        2.2.2 WEB信息抽取分类第19页
        2.2.3 SimHash算法第19-21页
    2.3 MongoDB数据库第21页
    2.4 Synonyms自然语言处理工具第21-22页
    2.5 本章小结第22-23页
第三章 物流信息抽取模型的研究第23-39页
    3.1 需求与设计目标第23-25页
        3.1.1 需求第23页
        3.1.2 设计目标第23-25页
    3.2 Scrapy爬虫应用第25-26页
    3.3 基于标签路径的WEB网页正文提取第26-30页
        3.3.1 基本概念第26-27页
        3.3.2 标签路径比的计算及其优化第27-30页
    3.4 基于VSM算法的主题相关性判定第30-35页
        3.4.1 特征项提取第30页
        3.4.2 权重计算及其改进第30-32页
        3.4.3 相似度计算第32-33页
        3.4.4 实验分析第33-35页
    3.5 信息抽取规则的提取第35-38页
        3.5.1 标签路径类选择器的定义第35-36页
        3.5.2 标签路径类选择器的获取第36-37页
        3.5.3 标签路径类选择器的校验第37-38页
    3.6 本章小结第38-39页
第四章 分布式信息抽取系统的设计第39-48页
    4.1 分布式物流信息采集框架设计第39-41页
        4.1.1 分布式爬虫架构第39-40页
        4.1.2 基于Scrapy-redis的分布式爬虫设计第40-41页
    4.2 待爬队列管理模块第41-44页
        4.2.1 爬行策略管理模块第41-43页
        4.2.2 URL去重模块第43-44页
    4.3 物流信息的去重第44-45页
    4.4 数据存储管理模块第45-46页
    4.5 数据时效性问题第46-47页
    4.6 本章小结第47-48页
第五章 分布式信息抽取系统的实现与应用第48-66页
    5.1 系统整体架构第48-49页
    5.2 系统环境部署第49页
    5.3 核心模块的实现第49-60页
        5.3.1 爬行策略的实现第49-51页
        5.3.2 URL去重模块实现第51-54页
        5.3.3 结构化提取模块实现第54-57页
        5.3.4 物流信息去重第57-58页
        5.3.5 检索服务的实现第58-60页
    5.4 系统应用案例第60-62页
        5.4.1 案例描述第60页
        5.4.2 系统运行过程及界面第60-62页
    5.5 系统应用分析第62-65页
        5.5.1 分布式抽取模块测试与分析第62-63页
        5.5.2 待爬序列去重测试与分析第63-64页
        5.5.3 系统运行效率测试和分析第64-65页
    5.6 本章小结第65-66页
第六章 总结与展望第66-68页
    6.1 总结第66-67页
    6.2 系统不足与展望第67-68页
参考文献第68-71页
致谢第71-72页
攻读硕士学位期间发表的学术成果第72页

论文共72页,点击 下载论文
上一篇:基于Kinect行为识别的研究与应用
下一篇:基于协同过滤及决策树的选课评教系统研究与实现