首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于标签的网页信息抽取方法研究

摘要第4-5页
abstract第5页
第一章 前言第8-16页
    1.1 课题背景与意义第8-9页
    1.2 国内外研究现状第9-12页
    1.3 论文研究内容第12-14页
    1.4 论文组织结构第14-16页
第二章 网页信息抽取方法综述第16-25页
    2.1 网页信息抽取概念第16页
    2.2 网页信息抽取重点解决的问题第16-17页
    2.3 网页信息抽取使用到的关键技术第17-22页
        2.3.1 HTML Parser技术第17-18页
        2.3.2 树编辑距离第18-19页
        2.3.3 网络爬虫第19-21页
        2.3.4 聚类算法第21-22页
    2.4 网页信息抽取方法介绍第22-24页
        2.4.1 基于ontology的信息抽取第22-23页
        2.4.2 基于统计的信息抽取第23页
        2.4.3 基于DOM树的信息抽取第23页
        2.4.4 基于Kernel的信息抽取第23-24页
    2.5 网页信息抽取方法评价标准第24页
    2.6 本章小结第24-25页
第三章 基于标签的数据区域定位和分割第25-40页
    3.1 网页预处理第25页
    3.2 定位抽取的数据区域第25-29页
        3.2.1 数据区域的特征第26-27页
        3.2.2 影响数据区域判定的问题及解决方案第27-29页
    3.3 分割数据区域得到数据记录第29-39页
        3.3.1 树编辑距离第29-33页
        3.3.2 树节点权重的设置第33-35页
        3.3.3 节点聚类第35-38页
        3.3.4 选择最佳聚类方案第38-39页
    3.4 本章小结第39-40页
第四章 数据记录属性抽取第40-46页
    4.1 SA算法介绍第40-41页
    4.2 迭代比对得到模板数据记录第41-43页
    4.3 抽取属性记录第43-45页
    4.4 本章小结第45-46页
第五章 实验系统第46-59页
    5.1 实验系统介绍第46页
    5.2 系统设计第46-53页
        5.2.1 网页预处理模块第47-48页
        5.2.2 数据区域定位模块第48-49页
        5.2.3 数据分割模块第49-52页
        5.2.4 属性补全和抽取模块第52-53页
    5.3 实验结果和分析第53-58页
    5.4 本章小结第58-59页
总结与展望第59-62页
    总结第59-60页
    主要创新点第60页
    存在问题和未来方向第60-62页
参考文献第62-66页
在学期间的研究成果第66-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:聚类有效性指标的研究与对比分析
下一篇:基于用户兴趣漂移和兴趣传播的协同过滤推荐算法