首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于节点类型标注的网页主题信息提取技术研究

摘要第6-7页
Abstract第7页
英文缩略表第11-12页
第一章 引言第12-16页
    1.1 研究背景与研究意义第12页
    1.2 国内外研究现状第12-14页
    1.3 论文研究内容第14页
    1.4 论文技术路线第14-15页
    1.5 论文组织结构第15-16页
第二章 网页主题信息抽取第16-23页
    2.1 网页主题信息抽取算法介绍第16-20页
        2.1.1 基于模板匹配的方法第16-17页
        2.1.2 基于机器学习的方法第17-18页
        2.1.3 基于启发式规则的方法第18-19页
        2.1.4 其他方法第19-20页
    2.2 网页主题信息抽取评价方法第20-21页
        2.2.1 直接评价法第20-21页
        2.2.2 间接评价法第21页
    2.3 网页主题信息抽取应用第21-22页
        2.3.1 网页语料处理第21页
        2.3.2 网页内容转换第21-22页
        2.3.3 网页数据挖掘第22页
    2.4 本章小结第22-23页
第三章 节点类型及内聚度第23-33页
    3.1 节点类型第24-28页
        3.1.1 标准DOM节点类型第24-26页
        3.1.2 本文DOM节点类型第26-28页
    3.2 节点内聚度第28-32页
        3.2.1 VIPS方法中的内聚度第29页
        3.2.2 本文方法中的内聚度第29-32页
    3.3 本章小结第32-33页
第四章 基于节点类型标注的方法第33-40页
    4.1 网页预处理第33-34页
        4.1.1 HTML语法的格式化第33页
        4.1.2 特定标签的处理第33-34页
    4.2 节点类型标注第34-35页
    4.3 主题信息抽取第35-39页
        4.3.1 选取最佳剪枝文本节点第35-36页
        4.3.2 DOM剪枝第36-38页
        4.3.3 图片与链接问题第38-39页
    4.4 本章小结第39-40页
第五章 网页主题信息抽取实验第40-46页
    5.1 实验环境设定第40页
    5.2 实验操作流程第40-42页
        5.2.1 选取主题型网页第41页
        5.2.2 WClipper提取网页正文第41页
        5.2.3 选取网页主题内容第41页
        5.2.4 选取正确内容第41页
        5.2.5 计算F1及记录第41-42页
    5.3 实验测试数据集第42页
    5.4 对比实验方法第42-43页
        5.4.1 有道网页剪报工具第42页
        5.4.2 印象笔记悦读工具第42-43页
        5.4.3 Readability工具第43页
    5.5 实验结果及分析第43-45页
    5.6 本章小结第45-46页
第六章 总结与展望第46-48页
    6.1 论文工作总结第46-47页
    6.2 存在的问题及未来的方向第47-48页
参考文献第48-54页
在学期间的研究成果第54-55页
致谢第55页

论文共55页,点击 下载论文
上一篇:基于用户行为的内容加速系统的设计与实现
下一篇:同城支付系统设计与实现