基于重复模式的Web数据抽取与集成应用

摘要	第1-5页
Abstract	第5-8页
第1章引言	第8-14页
·研究背景	第8-10页
·互联网搜索引擎	第8-9页
·从Web数据获取知识面临的挑战	第9-10页
·研究现状	第10-12页
·本文研究内容	第12-13页
·本文组织结构	第13-14页
第2章相关知识	第14-29页
·HTML	第14-18页
·HTML语言的发展	第14-15页
·HTML的语法结构	第15-16页
·HTML的特点	第16页
·HTML的局限性	第16-18页
·XML	第18-23页
·XML产生	第18页
·XML概述	第18-19页
·XML与HTML的不同	第19页
·XML的特点	第19-20页
·XML的语法结构	第20-22页
·XML与传统关系数据库的比较	第22-23页
·DOM树	第23-25页
·DOM定义	第23-24页
·DOM和HTML树型逻辑结构	第24-25页
·XPath	第25-26页
·HTTP协议	第26-27页
·中文分词	第27页
·相关技术在本文中的应用	第27-29页
第3章基于重复模式的Web数据抽取	第29-45页
·抽取系统实现目标	第29页
·系统抽取流程	第29-31页
·关键技术的研究与实现	第31-43页
·	第31-33页
·页面预处理	第33-35页
·归纳规则	第35-42页
·规则描述	第42-43页
·抽取数据	第43页
·本章小结	第43-45页
第4章 Web数据的集成应用	第45-54页
·集成工具的选择	第45-47页
·数据的集成	第47-53页
·本章小结	第53-54页
第5章原型系统介绍与实验分析	第54-61页
·系统工作模式	第54-55页
·实验环境	第55页
·抽取系统系统设计	第55-56页
·功能模块设计	第56-58页
·系统评价标准及实验	第58-61页
·系统评价标准	第58-59页
·实验结果及分析	第59-61页
第6章总结与展望	第61-63页
1 小结	第61-62页
2 对后续工作的展望	第62-63页
参考文献	第63-66页
致谢	第66页