首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于语义的电商网页内容查重研究及系统设计与实现

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-14页
    1.1 研究背景及意义第9-10页
    1.2 国内外研究现状和发展趋势第10-12页
    1.3 本文研究的目的和内容第12-13页
    1.4 论文结构第13-14页
第二章 技术背景第14-20页
    2.1 selenium框架介绍第14-16页
    2.2 Word-Net语义标准化介绍第16-17页
    2.3 文本分词和关键词提取算法介绍第17-20页
        2.3.1 文本分词技术介绍第17-18页
        2.3.2 Term weighting关键词提取算法介绍第18-20页
第三章 电商信息抓取与语义树的构造第20-30页
    3.1 电商网站结构分析第20-22页
        3.1.1 商品分类页面调研分析第20-21页
        3.1.2 商品详情页面分析第21-22页
    3.2 电商数据的抓取第22-24页
        3.2.1 网页信息提取研究现状第22-23页
        3.2.2 利用selenium框架爬取电商数据第23页
        3.2.3 电商数据爬取策略设计第23-24页
    3.3 数据的结构化处理和语义树的生成第24-29页
        3.3.1 商品分类描述的规范化第24-26页
        3.3.2 商品主要参数属性语义表征第26-28页
        3.3.3 商品语义树的定义和生成第28-29页
    3.4 本章小节第29-30页
第四章 基于语义树的商品相似度比较第30-37页
    4.1 常用的相似度比较的算法第30-31页
        4.1.1 文本相似度计算第30-31页
        4.1.2 利用知网相似度计算第31页
    4.2 基本概念定义第31-32页
    4.3 基于语义树的商品查重算法设计第32-36页
        4.3.1 语义树商品分类节点相似度计算第33-34页
        4.3.2 语义树商品节点相似度计算第34-35页
        4.3.3 语义树相似度计算和影响因子调整第35-36页
    4.4 本章小节第36-37页
第五章 基于语义的电商网页内容查重系统的设计与实现第37-49页
    5.1 主流网络爬虫介绍第37-38页
    5.2 数据库存储结构的设计第38-39页
    5.3 爬虫架构设计第39-40页
    5.4 基于语义的查重系统的实现第40-48页
        5.4.1 Kite框架的架构第40-41页
        5.4.2 Kite框架中间件第41-43页
        5.4.3 基于kite框架的查重服务实现第43-45页
        5.4.4 基于kite框架的服务的效率分析第45-47页
        5.4.5 查重系统有效性分析第47-48页
    5.5 本章小节第48-49页
第六章 总结与展望第49-51页
    6.1 本文工作总结第49页
    6.2 问题与展望第49-51页
参考文献第51-55页
攻读硕士学位期间发表的论文第55-56页
致谢第56页

论文共56页,点击 下载论文
上一篇:网站安全测评服务的安全评估研究
下一篇:基于Docker容器的SaaS模式云应用平台的研究与设计