首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于标签路径特征的网页正文自适应抽取方法研究

致谢第7-8页
摘要第8-9页
ABSTRACT第9页
第一章 绪论第14-17页
    1.1 研究背景、目的及意义第14-15页
    1.2 研究内容第15-16页
        1.2.1 课题来源第15页
        1.2.2 本文研究思路和主要研究内容第15-16页
        1.2.3 内容组织第16页
    1.3 本章小结第16-17页
第二章 网页正文抽取相关研究第17-24页
    2.1 相关工作第17-22页
    2.2 网页正文抽取的难点第22-23页
    2.3 网页正文抽取的评价体系第23页
    2.4 本章小结第23-24页
第三章 基于标签路径特征融合的在线Web新闻内容抽取方法第24-38页
    3.1 概述第24页
    3.2 DOM树与标签路径第24-25页
    3.3 标签路径特征系第25-28页
    3.4 标签路径特征融合第28-30页
        3.4.1 组合特征选择第28-30页
        3.4.2 组合特征融合第30页
    3.5 基于标签路径特征融合的在线Web新闻内容抽取第30-33页
        3.5.1 基于标签路径编辑距离的加权高斯平滑第30-32页
        3.5.2 自适应阈值设置与内容抽取算法第32-33页
    3.6 实验结果与分析第33-37页
        3.6.1 对比算法及实验数据集第33-34页
        3.6.2 实验结果分析第34-37页
    3.7 本章小结第37-38页
第四章 基于长文本标签比的网页正文抽取方法第38-50页
    4.1 概述第38页
    4.2 正文子树第38-39页
    4.3 长文本标签比第39-44页
    4.4 网页正文抽取第44-45页
        4.4.1 长文本阈值设置第44页
        4.4.2 子树聚类与正文抽取第44-45页
    4.5 实验结果与分析第45-48页
        4.5.1 实验数据集第45-46页
        4.5.2 实验结果分析第46-48页
    4.6 本章小结第48-50页
第五章 网页正文抽取算法在Web新闻聚合系统中的应用第50-54页
    5.1 概述第50页
    5.2 面向领域主题的Web新闻动态聚合系统第50-52页
    5.3 网页正文抽取算法在实际应用中的优势和局限性第52-53页
    5.4 本章小结第53-54页
第六章 总结与展望第54-56页
    6.1 研究工作总结第54-55页
    6.2 展望第55-56页
参考文献第56-60页
攻读学位期间的学术活动及成果情况第60-61页

论文共61页,点击 下载论文
上一篇:领导干部综合测评系统的设计与实现
下一篇:“自品牌”个人服务交易平台的设计与开发