首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于XML和XSLT的Web信息抽取研究与设计

摘要第1-5页
ABSTRACT第5-10页
第一章 概述第10-13页
   ·引言第10-11页
     ·背景第10页
     ·Web信息抽取第10-11页
     ·XML第11页
   ·本文的工作第11-12页
   ·本文的组织第12-13页
第二章 相关研究第13-21页
   ·基于自然语言理解的方法第13页
   ·基于机器学习的方法第13页
   ·基于Ontology的方法第13-14页
   ·上面三种方法的讨论第14页
   ·基于HTML结构的方法第14-18页
     ·W4F第14-15页
     ·XWrap第15-16页
     ·ANDES第16-17页
     ·小结第17-18页
   ·完全自动化的方法第18-19页
     ·IEPAD第18页
     ·RoadRunner第18-19页
     ·小结第19页
   ·方法总结和本文的工作第19-21页
第三章 相关标准第21-46页
   ·HTML(Hyper Text Markup Language)第21-22页
   ·XML第22-30页
     ·XML的产生第22-23页
     ·XML语法第23-24页
     ·元素(Element)与标记(Tag)第24-25页
     ·属性(Attribute)第25页
     ·XML验证(Validation)第25-26页
     ·样式单第26-27页
     ·XML带来的好处第27-30页
   ·XHTML第30页
   ·DOM(Document Object Model)第30-31页
   ·XPath第31-37页
     ·查询第32-33页
     ·定位路径(Location Path)第33-35页
     ·表达式第35-37页
   ·XSLT第37-46页
     ·模板第38页
     ·取得节点值第38-39页
     ·应用模板第39-40页
     ·默认模板规则第40页
     ·循环第40-41页
     ·选择第41-42页
     ·变量第42页
     ·按名称调用模板第42-44页
     ·用Java扩展XSLT第44-45页
     ·EXSLT(Extensions to XSLT)第45-46页
第四章 网页信息抽取平台第46-62页
   ·网页信息抽取的难点第46页
   ·网页信息抽取平台的目标第46-47页
   ·基于XSLT的抽取模式第47-48页
   ·示例:利用GUI编写XSLT第48-62页
     ·抽取天气信息第56-62页
第五章 抽取规则健壮性研究第62-68页
   ·数据定位健壮性研究第62-65页
     ·完全基于文本的定位第63页
     ·使用属性模式定位第63-64页
     ·不同定位模式的讨论第64-65页
   ·基于缩略路径的数据抽取第65页
   ·构造通用的链接组抽取模式第65-68页
第六章 自动归纳网页模板第68-85页
   ·引言第68-69页
   ·相关工作第69-71页
   ·模型和假定第71-73页
   ·归纳树模板第73-79页
   ·进一步的过滤与转换第79-82页
   ·实验结果第82-84页
   ·小结第84-85页
第七章 自动归纳网页记录模板第85-99页
   ·引言第85-86页
   ·相关工作第86-87页
   ·模型和假定第87-91页
     ·数据类型第87页
     ·模板第87-88页
     ·抽取模型第88-90页
     ·简化后的模型第90-91页
   ·归纳记录模板第91-96页
     ·列表数据的路径模式第91-92页
     ·树路径聚类与归纳第92-96页
   ·实验结果第96-97页
   ·小结第97-99页
第八章 多网页信息抽取第99-104页
   ·引言第99-100页
   ·模型和框架第100-103页
     ·问题描述第100页
     ·抽取框架第100-103页
   ·小结第103-104页
第九章 总结和未来的工作第104-108页
   ·总结第104-105页
   ·未来的工作第105-108页
致谢第108-109页
参考文献第109-111页

论文共111页,点击 下载论文
上一篇:校园网络中自适应负载均衡算法研究
下一篇:扩展DNS实现主机标识协议的研究