基于XML和XSLT的Web信息抽取研究与设计

摘要	第1-5页
ABSTRACT	第5-10页
第一章概述	第10-13页
·引言	第10-11页
·背景	第10页
·Web信息抽取	第10-11页
·XML	第11页
·本文的工作	第11-12页
·本文的组织	第12-13页
第二章相关研究	第13-21页
·基于自然语言理解的方法	第13页
·基于机器学习的方法	第13页
·基于Ontology的方法	第13-14页
·上面三种方法的讨论	第14页
·基于HTML结构的方法	第14-18页
·W4F	第14-15页
·XWrap	第15-16页
·ANDES	第16-17页
·小结	第17-18页
·完全自动化的方法	第18-19页
·IEPAD	第18页
·RoadRunner	第18-19页
·小结	第19页
·方法总结和本文的工作	第19-21页
第三章相关标准	第21-46页
·HTML(Hyper Text Markup Language)	第21-22页
·XML	第22-30页
·XML的产生	第22-23页
·XML语法	第23-24页
·元素(Element)与标记(Tag)	第24-25页
·属性(Attribute)	第25页
·XML验证(Validation)	第25-26页
·样式单	第26-27页
·XML带来的好处	第27-30页
·XHTML	第30页
·DOM(Document Object Model)	第30-31页
·XPath	第31-37页
·查询	第32-33页
·定位路径(Location Path)	第33-35页
·表达式	第35-37页
·XSLT	第37-46页
·模板	第38页
·取得节点值	第38-39页
·应用模板	第39-40页
·默认模板规则	第40页
·循环	第40-41页
·选择	第41-42页
·变量	第42页
·按名称调用模板	第42-44页
·用Java扩展XSLT	第44-45页
·EXSLT(Extensions to XSLT)	第45-46页
第四章网页信息抽取平台	第46-62页
·网页信息抽取的难点	第46页
·网页信息抽取平台的目标	第46-47页
·基于XSLT的抽取模式	第47-48页
·示例:利用GUI编写XSLT	第48-62页
·抽取天气信息	第56-62页
第五章抽取规则健壮性研究	第62-68页
·数据定位健壮性研究	第62-65页
·完全基于文本的定位	第63页
·使用属性模式定位	第63-64页
·不同定位模式的讨论	第64-65页
·基于缩略路径的数据抽取	第65页
·构造通用的链接组抽取模式	第65-68页
第六章自动归纳网页模板	第68-85页
·引言	第68-69页
·相关工作	第69-71页
·模型和假定	第71-73页
·归纳树模板	第73-79页
·进一步的过滤与转换	第79-82页
·实验结果	第82-84页
·小结	第84-85页
第七章自动归纳网页记录模板	第85-99页
·引言	第85-86页
·相关工作	第86-87页
·模型和假定	第87-91页
·数据类型	第87页
·模板	第87-88页
·抽取模型	第88-90页
·简化后的模型	第90-91页
·归纳记录模板	第91-96页
·列表数据的路径模式	第91-92页
·树路径聚类与归纳	第92-96页
·实验结果	第96-97页
·小结	第97-99页
第八章多网页信息抽取	第99-104页
·引言	第99-100页
·模型和框架	第100-103页
·问题描述	第100页
·抽取框架	第100-103页
·小结	第103-104页
第九章总结和未来的工作	第104-108页
·总结	第104-105页
·未来的工作	第105-108页
致谢	第108-109页
参考文献	第109-111页