基于归纳学习的Web半结构化信息抽取

摘要	第1-6页
ABSTRACT	第6-9页
第一章绪论	第9-14页
·研究背景	第9-10页
·研究目的及意义	第10-12页
·本文研究内容	第12-13页
·论文组织安排	第13页
·本章小结	第13-14页
第二章信息抽取概述	第14-21页
·Web信息抽取的发展历史	第14-15页
·Web信息抽取的任务	第15页
·Web信息抽取技术分类	第15-19页
·基于HTML结构的方式	第16页
·基于自然语言处理的方式	第16-17页
·包装器归纳方式	第17-18页
·基于Ontology的方式	第18-19页
·信息抽取评价标准	第19-20页
·半结构化数据及XML技术应用	第20页
·本章小结	第20-21页
第三章 XML技术综述	第21-33页
·XML的特点	第21-23页
·XML的文档结构	第23-24页
·XML的相关技术规范	第24-31页
·文档类型定义DTD(Document Type Definition)	第24-25页
·XML Schema模式	第25-26页
·文档对象模型DOM	第26-27页
·XPATH路径定位	第27-29页
·XSL模板转换	第29-31页
·XML应用现状	第31-32页
·本章小结	第32-33页
第四章基于归纳学习的Web信息抽取系统设计与实现	第33-51页
·设计目标与思路	第33-36页
·系统目标	第33页
·基本思路	第33-34页
·XML和XSLT在系统中的角色	第34-35页
·数据导向型页面	第35-36页
·系统的总体框架	第36-37页
·页面优化模块	第37-40页
·清洗页面文档	第38-40页
·页面解析	第40页
·信息抽取模块	第40-50页
·规则学习的依据	第41-42页
·规则学习的步骤	第42-49页
·Web信息抽取结果	第49-50页
·本章小结	第50-51页
第五章抽取规则优化算法研究	第51-56页
·优化的原因	第51页
·优化的定位方法	第51-55页
·路径与内容相结合	第51-53页
·完全基于文本的方法	第53-54页
·综合比较	第54-55页
·本章小结	第55-56页
第六章图形用户接口的实现	第56-68页
·界面绘图技术	第56-60页
·GUI的主要特征及发展方向	第56-57页
·MFC界面绘图技术简介	第57-58页
·MFC界面绘图技术分析	第58-60页
·系统完整效果及分析	第60-67页
·实验系统框架设计	第60-62页
·抽取过程示意及结果分析	第62-67页
·本章小结	第67-68页
第七章总结与展望	第68-69页
参考文献	第69-71页
在研成果	第71-72页
致谢	第72页