首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于模板的Web全站数据信息抽取的研究

摘要第5-7页
Abstract第7-8页
第一章 绪论第9-15页
    1.1 研究背景与意义第9-11页
    1.2 国内外研究现状第11-14页
    1.3 本文组织结构第14-15页
第二章 理论基础及相关技术第15-26页
    2.1 Web信息抽取概述第15-19页
        2.1.1 Web信息抽取的定义和评价标准第15-16页
        2.1.2 网页信息抽取算法分类第16-18页
        2.1.3 信息抽取的评价标准第18-19页
    2.2 网页信息抽取相关技术第19-22页
        2.2.1 网页DOM树第20页
        2.2.2 网页模板第20-22页
    2.3 聚类算法第22-25页
        2.3.1 层次聚类第23-24页
        2.3.2 划分聚类第24-25页
    2.4 本章小结第25-26页
第三章 基于模板的Web全站信息抽取第26-51页
    3.1 面向Web全站数据的信息抽取算法框架第26-27页
    3.2 预处理模块第27-30页
        3.2.1 相关网页过滤第27-28页
        3.2.2 简化HTML文档第28-30页
    3.3 网页重复记录检测与合并第30-35页
        3.2.1 后缀树检测重复序列的基本算法第30页
        3.2.2 改进的检测算法第30-32页
        3.2.3 合并重复记录第32-35页
    3.4 相似度计算第35-38页
        3.4.1 最小哈希(Min-Hashing)算法第35-37页
        3.4.2 基于最小哈希的局部敏感哈希算法第37-38页
    3.5 基于改进K-Means的分布式增量聚类模型第38-41页
        3.5.1 单批次网页文本聚类组合算法DKmeans第39页
        3.5.2 增量合并第39-41页
    3.6 模板生成和内容提取第41-50页
        3.6.1 模板定义第41-42页
        3.6.2 基于改进LCS的模板生成第42-48页
        3.6.3 内容提取第48-50页
    3.7 本章小结第50-51页
第四章 实验验证与分析第51-59页
    4.1 数据集和实验设置第51页
    4.2 预处理模块实验与分析第51-53页
    4.3 聚类和模板生成模块实验和分析第53-56页
    4.4 内容抽取模块实验和分析第56-57页
    4.5 本章小结第57-59页
第五章 总结与展望第59-60页
致谢第60-61页
参考文献第61-63页
附录第63-64页
图版第64页

论文共64页,点击 下载论文
上一篇:阵列数据库的通用索引框架关键技术研究
下一篇:基于分类挖掘的数据隐私保护方法研究