首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

面向复杂数据源的数据抽取模型和算法研究

摘要第1-8页
ABSTRACT第8-11页
第一章 绪论第11-30页
 1.1 研究背景第11-15页
  1.1.1 数据集成系统简介第11-12页
  1.1.2 数据抽取问题简介第12-13页
  1.1.3 本文的研究目标第13-15页
 1.2 数据抽取模型和算法的研究现状第15-18页
  1.2.1 数据抽取模型描述方法第15-16页
  1.2.2 规则描述方法第16页
  1.2.3 数据库映射机制第16-17页
  1.2.4 抽取算法第17页
  1.2.5 元数据生成方法第17-18页
 1.3 包装器生成工具的分类和质量评价指标第18-19页
 1.4 现有包装器生成工具在处理复杂数据源时的不足第19-21页
 1.5 本文的设计思路和解决方案第21-25页
  1.5.1 设计思路第21-23页
  1.5.2 解决方案: ReDE包装器生成工具和L-树包装器生成工具第23-24页
  1.5.3 ReDE包装器生成工具和L-树包装器生成工具的架构第24-25页
 1.6 本文的主要研究内容和成果第25-27页
 1.7 和相关工作的比较第27-29页
  1.7.1 与 ReDE包装器生成工具相关的研究工作第27页
  1.7.2 与 L-树包装器生成工具相关的研究工作第27-29页
 1.8 论文结构第29-30页
第二章 ReDE:基于 RE的数据抽取方法第30-47页
 2.1 正则表达式及其分析树第30-32页
 2.2 从RE分析树到数据抽取模型和关系数据库模式第32-35页
 2.3 ReDE的数据抽取和组装算法第35-39页
 2.4 ReDE的数据抽取和组装算法分析第39-42页
  2.4.1 代价模型第39页
  2.4.2 算法伸缩性第39-40页
  2.4.3 重叠匹配的时间复杂度第40-42页
 2.5 ReDE方法的应用实例及实验结果第42-46页
  2.5.1 应用实例第42-44页
  2.5.2 实验结果第44-46页
 2.6 本章小结第46-47页
第三章 基于与或树的RE二义性检查第47-59页
 3.1 RE二义性问题概述第47-48页
  3.1.1 RE二义性问题及现有处理方法第47-48页
  3.1.2 现有二义性处理方法在数据抽取应用中存在的问题第48页
 3.2 从正则表达式到与或树第48-50页
 3.3 切分特征及切分二义性问题第50-54页
 3.4 切分特征的递归计算第54-56页
 3.5 与或树上的二义性检查第56-58页
  3.5.1 组结点的合法性第57页
  3.5.2 “与”结点的合法性第57页
  3.5.3 有害二义性检查算法第57-58页
 3.6 本章小结第58-59页
第四章 DE-树:面向复杂数据源的数据抽取模型第59-81页
 4.1 术语和基本概念第59-62页
  4.1.1 树和标记树第59页
  4.1.2 切分器和定位器第59-61页
  4.1.3 扩展正则表达式第61-62页
  4.1.4 ERE分析树第62页
 4.2 DE-树模型第62-66页
  4.2.1 实例和实例记录第62-63页
  4.2.2 结点的基本特征和结点分类第63-64页
  4.2.3 DE-树第64-66页
 4.3 DE-树上的数据抽取逻辑第66-80页
  4.3.1 结点实例记录定位器的递归构造第66-70页
  4.3.2 结点实例记录不存在性判定第70-73页
  4.3.3 结点的定位能力第73-75页
   4.3.3.1 结点的实例记录定位能力第73-74页
   4.3.3.2 结点的实例定位能力第74-75页
  4.3.4 DE-树合法性检查第75-80页
   4.3.4.1 外部结点的合法性第75-76页
   4.3.4.2 有序内部结点的合法性第76-77页
   4.3.4.3 无序结点的合法性第77-79页
   4.3.4.4 L-树:合法的DE-树第79-80页
 4.4 本章小结第80-81页
第五章 L-树匹配:面向复杂数据源的数据抽取算法第81-103页
 5.1 L-树上的数据库映射机制第81-87页
  5.1.1 L-树上的表和属性第81-82页
  5.1.2 数据库模式树第82-83页
  5.1.3 从 DS-树到关系数据库模式第83-84页
  5.1.4 面向海量文本流的数据抽取框架第84-85页
  5.1.5 合并操作的实现第85-87页
 5.2 L-树匹配算法的相关概念第87-92页
  5.2.1 L-树匹配算法的基本操作和匹配噪声第87-88页
  5.2.2 匹配约束第88-89页
  5.2.3 部分匹配第89-90页
  5.2.4 L-树匹配算法轮廓第90-91页
  5.2.5 约束识别定位噪声的能力第91-92页
 5.3 L-树匹配算法的实现第92-101页
  5.3.1 传统匹配第93-95页
  5.3.2 有序匹配第95-98页
  5.3.3 无序匹配第98-101页
 5.4 L-树匹配算法举例第101-102页
 5.5 本章小结第102-103页
第六章 基于L-树的包装器生成工具第103-112页
 6.1 将ERE扩充成数据抽取脚本语言第103-104页
 6.2 L-树包装器生成工具的可视化编辑调试环境第104-107页
  6.2.1 ERE的可视化构建第104-105页
  6.2.2 ERE的逻辑检查第105-106页
  6.2.3 抽取结果的可视化评价第106-107页
 6.3 以XML格式输出抽取结果第107-108页
 6.4 L-树包装器生成工具的质量评价第108-109页
 6.5 L-树包装器的实际应用情况介绍第109-111页
 6.6 本章小结第111-112页
第七章 总结与展望第112-115页
 7.1 总结第112-113页
 7.2 展望第113-115页
参考文献第115-125页
附录 Perl正则表达式简介第125-126页
攻读博士学位期间作者的工作成果第126-127页
致谢第127-128页

论文共128页,点击 下载论文
上一篇:莲花生信仰研究
下一篇:硝苯地平降压效应的减弱提示高血压大鼠严重靶器官损伤的存在