基于XML的Web信息抽取与集成技术的研究
第1章 绪论 | 第1-13页 |
1.1 课题研究背景 | 第9页 |
1.2 课题研究现状 | 第9-11页 |
1.3 本文研究内容及方向 | 第11-13页 |
第2章 相关技术介绍 | 第13-23页 |
2.1 XML技术介绍 | 第13-20页 |
2.1.1 XML的特点 | 第13-16页 |
2.1.2 XML中间件技术 | 第16-17页 |
2.1.3 XML Schema | 第17-18页 |
2.1.4 XML Parser | 第18-20页 |
2.2 现有信息抽取模型 | 第20-23页 |
2.2.1 信息抽取模型 | 第20-21页 |
2.2.2 规则描述语言 | 第21-23页 |
第3章 基于 XML的 WEB信息抽取方法分析 | 第23-36页 |
3.1 现有的 WEB页面信息抽取的相关方法 | 第23-25页 |
3.1.1 手工方式的信息抽取 | 第23-24页 |
3.1.2 半自动化的信息抽取 | 第24页 |
3.1.3 自动(基于规则)的信息抽取 | 第24-25页 |
3.2 基于树型结构的 WEB数据抽取规则 | 第25-30页 |
3.2.1 用树型结构表示 Web文档 | 第25-26页 |
3.2.2 算法总体思路 | 第26-29页 |
3.2.3 抽取数据的XML输出 | 第29-30页 |
3.3 基于 DOM的XML数据访问机制 | 第30-36页 |
3.3.1 XML数据岛 | 第30-31页 |
3.3.2 使用 DOM访问XML文档 | 第31-36页 |
第4章 XML与关系数据集成方法分析 | 第36-45页 |
4.1 XML数据的关系存储 | 第36-40页 |
4.1.1 如何建立关系映射 | 第37页 |
4.1.2 建立关系映射的相关模型 | 第37-40页 |
4.2 基于 XML的 WEB查询处理 | 第40-45页 |
4.2.1 现有的XML查询语言 | 第41-43页 |
4.2.2 基于 XML的 Web查询模式 | 第43-45页 |
第5章 信息抽取原型系统的实现 | 第45-54页 |
5.1 需求分析 | 第45-47页 |
5.1.1 基于规则的自动抽取 | 第45-46页 |
5.1.2 基于人工的手动抽取 | 第46页 |
5.1.3 系统用例设计及分析 | 第46-47页 |
5.2 原型系统总体框架设计 | 第47-51页 |
5.2.1 系统功能模块设计 | 第47-48页 |
5.2.2 系统体系结构设计 | 第48页 |
5.2.3 功能模块的介绍 | 第48-51页 |
5.3 原型系统的实现及评价 | 第51-54页 |
5.3.1 系统实现环境 | 第51-52页 |
5.3.2 原型系统评价策略 | 第52-54页 |
第6章 结论 | 第54-55页 |
6.1 论文总结 | 第54页 |
6.2 工作展望 | 第54-55页 |
参考文献 | 第55-57页 |
附录 部分模块程序代码 | 第57-59页 |
攻读学位期间公开发表的论文 | 第59-60页 |
致谢 | 第60-61页 |
研究生履历 | 第61页 |