摘要 | 第1-8页 |
ABSTRACT | 第8-11页 |
第一章 绪论 | 第11-30页 |
1.1 研究背景 | 第11-15页 |
1.1.1 数据集成系统简介 | 第11-12页 |
1.1.2 数据抽取问题简介 | 第12-13页 |
1.1.3 本文的研究目标 | 第13-15页 |
1.2 数据抽取模型和算法的研究现状 | 第15-18页 |
1.2.1 数据抽取模型描述方法 | 第15-16页 |
1.2.2 规则描述方法 | 第16页 |
1.2.3 数据库映射机制 | 第16-17页 |
1.2.4 抽取算法 | 第17页 |
1.2.5 元数据生成方法 | 第17-18页 |
1.3 包装器生成工具的分类和质量评价指标 | 第18-19页 |
1.4 现有包装器生成工具在处理复杂数据源时的不足 | 第19-21页 |
1.5 本文的设计思路和解决方案 | 第21-25页 |
1.5.1 设计思路 | 第21-23页 |
1.5.2 解决方案: ReDE包装器生成工具和L-树包装器生成工具 | 第23-24页 |
1.5.3 ReDE包装器生成工具和L-树包装器生成工具的架构 | 第24-25页 |
1.6 本文的主要研究内容和成果 | 第25-27页 |
1.7 和相关工作的比较 | 第27-29页 |
1.7.1 与 ReDE包装器生成工具相关的研究工作 | 第27页 |
1.7.2 与 L-树包装器生成工具相关的研究工作 | 第27-29页 |
1.8 论文结构 | 第29-30页 |
第二章 ReDE:基于 RE的数据抽取方法 | 第30-47页 |
2.1 正则表达式及其分析树 | 第30-32页 |
2.2 从RE分析树到数据抽取模型和关系数据库模式 | 第32-35页 |
2.3 ReDE的数据抽取和组装算法 | 第35-39页 |
2.4 ReDE的数据抽取和组装算法分析 | 第39-42页 |
2.4.1 代价模型 | 第39页 |
2.4.2 算法伸缩性 | 第39-40页 |
2.4.3 重叠匹配的时间复杂度 | 第40-42页 |
2.5 ReDE方法的应用实例及实验结果 | 第42-46页 |
2.5.1 应用实例 | 第42-44页 |
2.5.2 实验结果 | 第44-46页 |
2.6 本章小结 | 第46-47页 |
第三章 基于与或树的RE二义性检查 | 第47-59页 |
3.1 RE二义性问题概述 | 第47-48页 |
3.1.1 RE二义性问题及现有处理方法 | 第47-48页 |
3.1.2 现有二义性处理方法在数据抽取应用中存在的问题 | 第48页 |
3.2 从正则表达式到与或树 | 第48-50页 |
3.3 切分特征及切分二义性问题 | 第50-54页 |
3.4 切分特征的递归计算 | 第54-56页 |
3.5 与或树上的二义性检查 | 第56-58页 |
3.5.1 组结点的合法性 | 第57页 |
3.5.2 “与”结点的合法性 | 第57页 |
3.5.3 有害二义性检查算法 | 第57-58页 |
3.6 本章小结 | 第58-59页 |
第四章 DE-树:面向复杂数据源的数据抽取模型 | 第59-81页 |
4.1 术语和基本概念 | 第59-62页 |
4.1.1 树和标记树 | 第59页 |
4.1.2 切分器和定位器 | 第59-61页 |
4.1.3 扩展正则表达式 | 第61-62页 |
4.1.4 ERE分析树 | 第62页 |
4.2 DE-树模型 | 第62-66页 |
4.2.1 实例和实例记录 | 第62-63页 |
4.2.2 结点的基本特征和结点分类 | 第63-64页 |
4.2.3 DE-树 | 第64-66页 |
4.3 DE-树上的数据抽取逻辑 | 第66-80页 |
4.3.1 结点实例记录定位器的递归构造 | 第66-70页 |
4.3.2 结点实例记录不存在性判定 | 第70-73页 |
4.3.3 结点的定位能力 | 第73-75页 |
4.3.3.1 结点的实例记录定位能力 | 第73-74页 |
4.3.3.2 结点的实例定位能力 | 第74-75页 |
4.3.4 DE-树合法性检查 | 第75-80页 |
4.3.4.1 外部结点的合法性 | 第75-76页 |
4.3.4.2 有序内部结点的合法性 | 第76-77页 |
4.3.4.3 无序结点的合法性 | 第77-79页 |
4.3.4.4 L-树:合法的DE-树 | 第79-80页 |
4.4 本章小结 | 第80-81页 |
第五章 L-树匹配:面向复杂数据源的数据抽取算法 | 第81-103页 |
5.1 L-树上的数据库映射机制 | 第81-87页 |
5.1.1 L-树上的表和属性 | 第81-82页 |
5.1.2 数据库模式树 | 第82-83页 |
5.1.3 从 DS-树到关系数据库模式 | 第83-84页 |
5.1.4 面向海量文本流的数据抽取框架 | 第84-85页 |
5.1.5 合并操作的实现 | 第85-87页 |
5.2 L-树匹配算法的相关概念 | 第87-92页 |
5.2.1 L-树匹配算法的基本操作和匹配噪声 | 第87-88页 |
5.2.2 匹配约束 | 第88-89页 |
5.2.3 部分匹配 | 第89-90页 |
5.2.4 L-树匹配算法轮廓 | 第90-91页 |
5.2.5 约束识别定位噪声的能力 | 第91-92页 |
5.3 L-树匹配算法的实现 | 第92-101页 |
5.3.1 传统匹配 | 第93-95页 |
5.3.2 有序匹配 | 第95-98页 |
5.3.3 无序匹配 | 第98-101页 |
5.4 L-树匹配算法举例 | 第101-102页 |
5.5 本章小结 | 第102-103页 |
第六章 基于L-树的包装器生成工具 | 第103-112页 |
6.1 将ERE扩充成数据抽取脚本语言 | 第103-104页 |
6.2 L-树包装器生成工具的可视化编辑调试环境 | 第104-107页 |
6.2.1 ERE的可视化构建 | 第104-105页 |
6.2.2 ERE的逻辑检查 | 第105-106页 |
6.2.3 抽取结果的可视化评价 | 第106-107页 |
6.3 以XML格式输出抽取结果 | 第107-108页 |
6.4 L-树包装器生成工具的质量评价 | 第108-109页 |
6.5 L-树包装器的实际应用情况介绍 | 第109-111页 |
6.6 本章小结 | 第111-112页 |
第七章 总结与展望 | 第112-115页 |
7.1 总结 | 第112-113页 |
7.2 展望 | 第113-115页 |
参考文献 | 第115-125页 |
附录 Perl正则表达式简介 | 第125-126页 |
攻读博士学位期间作者的工作成果 | 第126-127页 |
致谢 | 第127-128页 |