基于主题和结构的XML网页的数据抽取

摘要	第1-4页
Abstract	第4-7页
第一章引言	第7-10页
1．1 问题的提出	第7-9页
1．2 本文的主要工作	第9-10页
第二章 XML技术的发展和前景	第10-16页
2．1 XML简介	第10-11页
2．2 支持XML的公司和它们的开发工具	第11-12页
2．3 XML文档组成	第12-13页
2．3．1 标记和字符数据	第12-13页
2．3．2 独立文档中结构完整的XML	第13页
2．4 XML作为数据交换格式的主要特点	第13-15页
2．5 XML用于WEB的发展前景	第15-16页
第三章 WEB数据挖掘综述	第16-33页
3．1 数据挖掘的概念	第16-18页
3．1．1 数据挖掘的定义	第16-17页
3．1．2 数据挖掘的分类	第17页
3．1．3 数据挖掘的方法和技术	第17-18页
3．2 WEB数据挖掘	第18-26页
3．2．1 Web挖掘的对象	第18-19页
3．2．2 Web挖掘的分类	第19-21页
3．2．3 Web数据挖掘的特点	第21-23页
3．2．4 XML在Web数据挖掘中的应用	第23-26页
3．3 WEB信息抽取技术现状	第26-33页
3．3．1 XWrap	第27-30页
3．3．2 利用网站查询表格进行信息抽取	第30页
3．3．3 抽取多媒体文档模式	第30-33页
第四章基于主题和结构的XML数据抽取系统的设计与实现	第33-49页
4．1 系统功能结构	第33-34页
4．2 构建主题关系	第34-35页
4．3 解析XML文档	第35-40页
4．3．1 文档对象模型(DOM)	第35-37页
4．3．2 XML简单API(SAX)	第37-38页
4．3．3 本系统采用的技术	第38-40页
4．4 模式抽取	第40-44页
4．4．1 问题描述	第40页
4．4．2 发现包含关系信息的语义块	第40-43页
4．4．3 区分实体	第43-44页
4．4．4 模式推导	第44页
4．5 信息抽取示例	第44-49页
第五章总结与展望	第49-50页
5．1 工作总结	第49页
5．2 进一步的工作	第49-50页
参考文献	第50-53页
致谢	第53-54页