首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于页面模块识别的Web文章自动抽取方法研究

摘要第4-5页
Abstract第5页
第1章 绪论第8-15页
    1.1 课题研究的目的和意义第8-9页
    1.2 国内外研究和综述第9-13页
        1.2.1 页面分块技术的研究现状第9-11页
        1.2.2 信息抽取技术的研究现状第11-13页
    1.3 课题研究内容第13页
    1.4 本文结构安排第13-15页
第2章 Web 文章页面分块与信息抽取的相关知识第15-26页
    2.1 Web 文章模型第15-16页
    2.2 页面特征与页面分块算法相关概念第16-20页
        2.2.1 视觉特征第16-17页
        2.2.2 DOM 树结构特征第17-18页
        2.2.3 VIPS 页面分块算法第18-19页
        2.2.4 自下而上的页面分块算法第19-20页
    2.3 分类聚类算法第20-24页
        2.3.1 贝叶斯分类算法第20-21页
        2.3.2 决策树分类算法第21-23页
        2.3.3 Single-Pass 聚类算法第23-24页
    2.4 性能评价指标第24页
    2.5 本章小结第24-26页
第3章 Web 文章的正文识别方法第26-39页
    3.1 页面分块算法设计第26-29页
        3.1.1 文本块第26-28页
        3.1.2 基于 Block 节点的页面分块算法第28-29页
    3.2 Web 文章的正文识别方法设计第29-34页
        3.2.1 Web 文章正文特征分析第29-30页
        3.2.2 基于贝叶斯的识别方法第30-31页
        3.2.3 基于决策树的识别方法第31页
        3.2.4 基于 Single-Pass 的识别方法第31-34页
        3.2.5 Web 文章正文文本的抽取第34页
    3.3 实验结果与分析第34-38页
    3.4 本章小结第38-39页
第4章 Web 文章辅助信息的识别方法第39-50页
    4.1 Web 文章标题的识别第39-41页
        4.1.1 Web 文章标题特征分析第39-40页
        4.1.2 Web 文章标题的识别方法第40-41页
    4.2 Web 文章摘要的识别第41-43页
        4.2.1 Web 文章摘要特征分析第41-42页
        4.2.2 Web 文章摘要的识别方法第42-43页
    4.3 Web 文章插图及其小标题的识别第43-45页
        4.3.1 Web 文章插图及其小标题特征分析第43-44页
        4.3.2 Web 文章插图及其小标题的识别方法第44-45页
    4.4 Web 文章相关链接列表的识别第45-46页
        4.4.1 Web 文章相关链接列表特征分析第45页
        4.4.2 Web 文章相关链接列表的识别方法第45-46页
    4.5 实验结果与分析第46-48页
    4.6 本章小结第48-50页
第5章 Web 文章信息自动抽取系统第50-55页
    5.1 系统功能目标第50页
    5.2 系统总体设计第50-52页
    5.3 系统模块详细设计第52-54页
        5.3.1 特征提取模块第52页
        5.3.2 页面分块模块第52-53页
        5.3.3 语义块识别模块第53-54页
        5.3.4 信息抽取模块第54页
    5.4 本章小结第54-55页
结论第55-56页
参考文献第56-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:基于论文摘要及引用信息的领域研究热点发现
下一篇:单线协议从设备控制器设计