基于半自动化WEB数据抽取器的信息集成研究
摘要 | 第1-6页 |
ABSTRACT | 第6-8页 |
第1章 绪论 | 第8-14页 |
·研究背景及意义 | 第8页 |
·信息集成研究现状 | 第8-12页 |
·异构数据源特点 | 第8-9页 |
·信息集成体系结构 | 第9-11页 |
·信息集成目标 | 第11页 |
·WEB信息集成现状 | 第11-12页 |
·本文主要研究内容 | 第12页 |
·章节安排 | 第12-14页 |
第2章 信息集成基本原理 | 第14-23页 |
·HTML、XML和XHTML | 第14-16页 |
·HTML | 第14页 |
·XML | 第14-15页 |
·XHTML | 第15-16页 |
·DOM、XPath和XSLT | 第16-21页 |
·DOM | 第16页 |
·XPath | 第16-18页 |
·XSLT | 第18-21页 |
·WEB数据抽取技术现状 | 第21-22页 |
·本章小结 | 第22-23页 |
第3章 信息集成体系结构设计 | 第23-30页 |
·WEB数据源特点 | 第23页 |
·MMIIF设计 | 第23-29页 |
·包装器 | 第24-26页 |
·查询处理过程 | 第26页 |
·模式集成 | 第26-29页 |
·本章小结 | 第29-30页 |
第4章 半自动化WEB数据抽取器 | 第30-44页 |
·WEB数据抽取难点分析 | 第30页 |
·WEB数据抽取器目标 | 第30-31页 |
·半自动化WEB数据抽取器设计 | 第31-42页 |
·获取相似网页 | 第31-35页 |
·清理页面 | 第35-36页 |
·定义抽取模式 | 第36-39页 |
·抽取数据 | 第39-40页 |
·XML文件导入关系数据库 | 第40-42页 |
·本章小结 | 第42-44页 |
第5章 半自动化WEB数据抽取器实现及评价 | 第44-55页 |
·半自动化WEB数据抽取器实现 | 第44-51页 |
·采集数据 | 第44页 |
·清理数据 | 第44-45页 |
·生成抽取规则 | 第45-49页 |
·抽取数据 | 第49页 |
·导入数据库 | 第49-51页 |
·数据抽取器评价 | 第51-53页 |
·数据抽取评价指标 | 第51页 |
·数据抽取结果分析 | 第51-53页 |
·本章小结 | 第53-55页 |
第6章 总结与展望 | 第55-56页 |
主要工作 | 第55页 |
主要贡献及创新点 | 第55页 |
展望 | 第55-56页 |
参考文献 | 第56-59页 |
附录 | 第59-60页 |
致谢 | 第60-61页 |
在读期间发表的论文 | 第61页 |