基于XML的半结构化Web信息提取的研究

第一章绪论	第1-15页
·选题背景和意义	第8-9页
·半结构化数据	第9页
·什么是信息提取	第9-11页
·信息提取研究的发展历史	第11-13页
·Web 信息提取的应用	第13-14页
·本文的研究内容	第14页
·本文的组织	第14-15页
第二章相关标准与 Web 信息提取技术	第15-34页
·引言	第15页
·相关标准	第15-20页
·XML	第15-18页
·XHTML	第18页
·DOM	第18-19页
·Xpath	第19页
·XSLT	第19-20页
·Web 信息提取技术概述	第20-32页
·Web 信息提取技术的分类	第21-26页
·信息提取系统体系结构	第26-28页
·Web 信息提取存在的问题	第28页
·Web 信息提取的关键技术	第28-31页
·信息提取系统的评测指标	第31-32页
·资料综述	第32-33页
·本章总结	第33-34页
第三章基于 XML 的半结构化 Web 信息提取平台	第34-60页
·概述	第34-38页
·平台的目标	第34页
·设计的基本思想	第34-35页
·XML 和 XSLT 在平台中的角色	第35-38页
·数据导向型页面	第38页
·平台的总体框架	第38-39页
·平台中的知识库与数据库	第39-41页
·构造领域知识库	第39-40页
·提取规则库	第40页
·提取结果数据库和 Web 页面数据库	第40-41页
·页面优化模块	第41-48页
·清洗（TIDY）页面文档	第41-47页
·页面解析（PARSER）	第47-48页
·信息提取模块	第48-58页
·规则学习的依据	第49-50页
·规则学习的步骤	第50-56页
·信息提取过程的描述	第56-58页
·资料综述	第58页
·本章总结	第58-60页
第四章提取规则的优化研究	第60-66页
·信息定位的优化方法	第60-63页
·基于树路径的定位	第60-61页
·路径与内容结合的定位方式	第61-62页
·完全基于文本的定位方式	第62-63页
·基于属性的定位	第63页
·几种定位方法的小结	第63-65页
·本章总结	第65-66页
第五章结论和展望	第66-68页
·本论文研究总结	第66-67页
·展望	第67-68页
致谢	第68-69页
参考文献	第69-72页
攻读学位期间的研究成果及发表的学术论文	第72页