首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向精确Web信息抽取的自动数据记录分析和识别技术研究

摘要第1-7页
Abstract第7-11页
第一章 绪论第11-28页
   ·Web信息抽取技术的发展背景第11-12页
   ·Web信息抽取主要处理过程第12-14页
   ·Web信息抽取相关研究工作与技术分类第14-20页
     ·手工编写规则的方法第15-16页
     ·基于用户交互的半自动化方法第16-17页
     ·基于机器学习的自动化方法第17-20页
   ·Web信息抽取技术的主要研究问题第20-22页
   ·现有研究工作的不足第22-23页
   ·本文研究工作第23-26页
     ·研究思路第23-25页
     ·本文主要研究内容第25-26页
   ·本文组织结构第26-28页
第二章 精确Web信息抽取综合模型和页面自动分析技术第28-34页
   ·结构分析自动化与用户交互半自动化的规则生成综合模型和方法第28-29页
   ·面向精确Web信息抽取的自动化数据记录分析技术第29-33页
     ·页面的信息分类第30-31页
     ·自动化页面分析技术第31-33页
   ·本章小结第33-34页
第三章 简单树匹配算法简介第34-39页
   ·基本概念第34-35页
     ·HTML简介第34-35页
     ·DOM简介第35页
   ·DOM树相似度算法第35-38页
   ·本章小结第38-39页
第四章 数据记录自动分析和识别技术第39-49页
   ·HTML文档与节点特征体系第39-40页
   ·基于基本特征的加权树匹配算法第40-43页
     ·算法的基本思路第40-41页
     ·算法的计算过程第41-43页
   ·基于分类特征的分层过滤匹配策略第43-44页
   ·数据块/数据记录识别算法第44-47页
   ·数据块过滤算法第47-48页
   ·本章小结第48-49页
第五章 记录中的字段分析和识别技术第49-58页
   ·记录间的数据对齐第49-50页
   ·基于视觉和DOM树的字段分析算法第50-53页
     ·纵向特征第51-52页
     ·横向特征第52页
     ·字段开始节点识别第52-53页
   ·基于内容特征的字段矫正算法第53-55页
   ·字段分析结果的表示以及到抽取规则的生成转换第55-57页
   ·本章小结第57-58页
第六章 实验与分析第58-63页
   ·实验数据第58页
   ·实验结果及分析第58-62页
     ·记录识别实验第58-60页
     ·数据块识别实验第60-61页
     ·字段识别实验第61-62页
   ·实验小结第62-63页
第七章 总结与展望第63-65页
   ·本文总结第63-64页
   ·进一步工作第64-65页
参考文献第65-69页
致谢第69-70页

论文共70页,点击 下载论文
上一篇:一种水情自动测报终端的研究与设计
下一篇:Web服务可靠性若干关键问题研究