基于XML的Web信息抽取与集成技术的研究
| 第1章 绪论 | 第1-13页 |
| 1.1 课题研究背景 | 第9页 |
| 1.2 课题研究现状 | 第9-11页 |
| 1.3 本文研究内容及方向 | 第11-13页 |
| 第2章 相关技术介绍 | 第13-23页 |
| 2.1 XML技术介绍 | 第13-20页 |
| 2.1.1 XML的特点 | 第13-16页 |
| 2.1.2 XML中间件技术 | 第16-17页 |
| 2.1.3 XML Schema | 第17-18页 |
| 2.1.4 XML Parser | 第18-20页 |
| 2.2 现有信息抽取模型 | 第20-23页 |
| 2.2.1 信息抽取模型 | 第20-21页 |
| 2.2.2 规则描述语言 | 第21-23页 |
| 第3章 基于 XML的 WEB信息抽取方法分析 | 第23-36页 |
| 3.1 现有的 WEB页面信息抽取的相关方法 | 第23-25页 |
| 3.1.1 手工方式的信息抽取 | 第23-24页 |
| 3.1.2 半自动化的信息抽取 | 第24页 |
| 3.1.3 自动(基于规则)的信息抽取 | 第24-25页 |
| 3.2 基于树型结构的 WEB数据抽取规则 | 第25-30页 |
| 3.2.1 用树型结构表示 Web文档 | 第25-26页 |
| 3.2.2 算法总体思路 | 第26-29页 |
| 3.2.3 抽取数据的XML输出 | 第29-30页 |
| 3.3 基于 DOM的XML数据访问机制 | 第30-36页 |
| 3.3.1 XML数据岛 | 第30-31页 |
| 3.3.2 使用 DOM访问XML文档 | 第31-36页 |
| 第4章 XML与关系数据集成方法分析 | 第36-45页 |
| 4.1 XML数据的关系存储 | 第36-40页 |
| 4.1.1 如何建立关系映射 | 第37页 |
| 4.1.2 建立关系映射的相关模型 | 第37-40页 |
| 4.2 基于 XML的 WEB查询处理 | 第40-45页 |
| 4.2.1 现有的XML查询语言 | 第41-43页 |
| 4.2.2 基于 XML的 Web查询模式 | 第43-45页 |
| 第5章 信息抽取原型系统的实现 | 第45-54页 |
| 5.1 需求分析 | 第45-47页 |
| 5.1.1 基于规则的自动抽取 | 第45-46页 |
| 5.1.2 基于人工的手动抽取 | 第46页 |
| 5.1.3 系统用例设计及分析 | 第46-47页 |
| 5.2 原型系统总体框架设计 | 第47-51页 |
| 5.2.1 系统功能模块设计 | 第47-48页 |
| 5.2.2 系统体系结构设计 | 第48页 |
| 5.2.3 功能模块的介绍 | 第48-51页 |
| 5.3 原型系统的实现及评价 | 第51-54页 |
| 5.3.1 系统实现环境 | 第51-52页 |
| 5.3.2 原型系统评价策略 | 第52-54页 |
| 第6章 结论 | 第54-55页 |
| 6.1 论文总结 | 第54页 |
| 6.2 工作展望 | 第54-55页 |
| 参考文献 | 第55-57页 |
| 附录 部分模块程序代码 | 第57-59页 |
| 攻读学位期间公开发表的论文 | 第59-60页 |
| 致谢 | 第60-61页 |
| 研究生履历 | 第61页 |