首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

结合块密度和标签路径特征的网页正文抽取方法研究

致谢第7-8页
摘要第8-9页
abstract第9页
第一章 绪论第14-18页
    1.1 研究背景第14-15页
    1.2 研究内容第15-17页
        1.2.1 课题来源第15页
        1.2.2 本文研究思路和主要研究内容第15-16页
        1.2.3 内容组织结构第16-17页
    1.3 本章小结第17-18页
第二章 网页正文抽取相关研究第18-28页
    2.1 相关研究工作概述第18-25页
        2.1.1 国内外研究现状第18-22页
        2.1.2 基于标签特征的网页正文抽取第22-24页
        2.1.3 基于文本密度特征的网页正文抽取第24-25页
    2.2 网页正文抽取评价指标第25-26页
        2.2.1 实验数据预处理第25-26页
        2.2.2 评价指标第26页
    2.3 当前网页正文抽取面临的挑战第26-27页
    2.4 本章小结第27-28页
第三章 基于文本块密度的Web新闻内容抽取方法第28-40页
    3.1 概述第28页
    3.2 DOM树第28-30页
    3.3 文本块密度特征第30-35页
        3.3.1 文本块密度特征第30-33页
        3.3.2 扩展文本块密度特征第33-35页
    3.4 基于文本块密度的Web新闻内容抽取方法第35页
    3.5 实验结果与分析第35-39页
        3.5.1 实验数据集及相关对比算法第35-36页
        3.5.2 实验结果分析第36-39页
    3.6 本章小结第39-40页
第四章 基于文本块密度和标签路径覆盖率的网页正文抽取方法第40-50页
    4.1 概述第40页
    4.2 标签路径和标签路径覆盖率第40-43页
        4.2.1 标签路径第40-42页
        4.2.2 标签路径覆盖率第42-43页
    4.3 文本块密度和标签路径覆盖率特征融合第43-44页
    4.4 基于文本块密度和标签路径覆盖率的网页正文抽取方法第44-46页
        4.4.1 抽取阈值设置第44-46页
        4.4.2 抽取算法第46页
    4.5 实验结果第46-49页
        4.5.1 实验数据集及相关对比算法第46-47页
        4.5.2 实验结果分析第47-49页
    4.6 本章小结第49-50页
第五章 基于文本块密度和标签路径覆盖率的Web新闻内容抽取原型系统第50-55页
    5.1 概述第50页
    5.2 系统模型第50-51页
    5.3 系统界面第51-53页
    5.4 网页正文抽取算法在实际应用中的优势和不足第53-54页
    5.5 本章小结第54-55页
第六章 总结与展望第55-57页
    6.1 本文总结第55-56页
    6.2 展望第56-57页
参考文献第57-61页
攻读硕士学位期间的学术活动及成果情况第61-63页

论文共63页,点击 下载论文
上一篇:基于SaaS的企业云服务建模描述及服务组合优化研究
下一篇:基于时空特征的双模态情感识别研究