基于XML的网页结构复用及抽取方法研究
摘要 | 第1-6页 |
Abstract | 第6-9页 |
第一章 前言 | 第9-13页 |
·问题的提出 | 第9-10页 |
·研究背景及研究现状 | 第10-12页 |
·本文的内容和主要工作 | 第12-13页 |
第二章软件复用及XML相关技术 | 第13-26页 |
·软件复用技术 | 第13-16页 |
·组件 | 第14-15页 |
·框架 | 第15-16页 |
·Web 表现层技术 | 第16-20页 |
·Web 表现层开发技术现状 | 第16-19页 |
·表现层框架开发技术的概况 | 第19-20页 |
·HTTP 技术 | 第20-21页 |
·HTTP 协议的运作方式 | 第20页 |
·HTTP HEADER | 第20-21页 |
·HTML 语言局限性 | 第21-22页 |
·HTML 与WEB 网页 | 第21页 |
·HTML 的局限性 | 第21页 |
·格式良好的HTML 文档 | 第21-22页 |
·XML 相关技术 | 第22-26页 |
·XML 的起源和发展 | 第22页 |
·XML 的特点 | 第22-23页 |
·XML 的结构特征和模式 | 第23-25页 |
·XML 技术在本文中的应用 | 第25-26页 |
第三章 基于XML 网页结构复用系统框架模型 | 第26-40页 |
·系统框架设计目标 | 第26页 |
·系统框架总体结构 | 第26-36页 |
·Enhydra 及其核心技术XMLC | 第27-31页 |
·文档对象模型(DOM) | 第31-35页 |
·XMLC 中的DOM | 第35-36页 |
·XMLC 在网页结构复用中的优势 | 第36页 |
·系统框架组成模块 | 第36-40页 |
·页面预处理模块 | 第36-37页 |
·结构抽取模块 | 第37-38页 |
·XMLC 编译器 | 第38页 |
·组件集成模块 | 第38-39页 |
·系统表现层子框架 | 第39-40页 |
第四章 网页结构抽取过程设计与实现 | 第40-56页 |
·网页结构抽取过程设计 | 第40-41页 |
·网页获取 | 第41-45页 |
·目标网页的指定方式(POST/GET) | 第41-44页 |
·网站连接登录问题 | 第44-45页 |
·HTML 源代码获取 | 第45页 |
·抽取规则定义 | 第45-48页 |
·网页模式提取 | 第46页 |
·目标模板模式的建立 | 第46-47页 |
·DOM 节点抽取过程描述文件 | 第47-48页 |
·结构抽取实施 | 第48-55页 |
·获取网页数据 | 第48页 |
·HTML 到XML 的转换 | 第48-50页 |
·DOM 树的建立和打印 | 第50-52页 |
·目标模板的建立 | 第52-53页 |
·映射规则执行 | 第53页 |
·抽取规则执行算法 | 第53-55页 |
·将DOM 文档转换为XML 文件 | 第55页 |
·本章小结 | 第55-56页 |
结论与展望 | 第56-57页 |
参考文献 | 第57-60页 |
致谢 | 第60-61页 |
附录(攻读学位期间所发表的学术论文) | 第61-62页 |
详细摘要 | 第62-66页 |