基于XML用户自定义需求的WEB信息提取研究
| 目录 | 第1-5页 |
| 图目录 | 第5-6页 |
| 表目录 | 第6-7页 |
| 摘要 | 第7-9页 |
| Abstract | 第9-11页 |
| 第1章 绪论 | 第11-15页 |
| ·研究背景及意义 | 第11-12页 |
| ·国内外研究现状 | 第12-13页 |
| ·国外研究现状 | 第12页 |
| ·国内研究现状 | 第12-13页 |
| ·目前研究成果的不足 | 第13页 |
| ·研究主要内容和研究目标 | 第13-14页 |
| ·文章的组织结构 | 第14-15页 |
| 第2章 WEB信息提取相关技术 | 第15-27页 |
| ·XML及相关标准 | 第15-20页 |
| ·XML | 第15-16页 |
| ·DOM | 第16-17页 |
| ·XSL | 第17-20页 |
| ·WEB信息提取技术概述 | 第20-25页 |
| ·WEB信息提取与信息检索的区别 | 第20页 |
| ·WEB信息提取的分类 | 第20-24页 |
| ·WEB信息提取评价标准 | 第24-25页 |
| ·本章小结 | 第25-27页 |
| 第3章 系统设计思路和获取待提取页面 | 第27-37页 |
| ·研究概述 | 第27-31页 |
| ·基本设计思想 | 第27-30页 |
| ·WEB信息提取数据源 | 第30-31页 |
| ·页面预处理 | 第31-33页 |
| ·页面清洗 | 第31-32页 |
| ·XHTML转换为XML | 第32-33页 |
| ·解析生成DOM树 | 第33-36页 |
| ·标记节点类型 | 第33-34页 |
| ·获取节点路径表达式 | 第34-36页 |
| ·本章小结 | 第36-37页 |
| 第4章 获取用户需求和构造提取规则 | 第37-51页 |
| ·定义目标结构 | 第37-39页 |
| ·概念描述 | 第37页 |
| ·构造目标结构 | 第37-39页 |
| ·标记样本 | 第39-41页 |
| ·内容映射 | 第39-40页 |
| ·结构映射 | 第40-41页 |
| ·样本数据映射规则 | 第41页 |
| ·构造提取规则 | 第41-48页 |
| ·根节点存在结构映射 | 第43-46页 |
| ·根节点不存在结构映射 | 第46-48页 |
| ·本章小结 | 第48-51页 |
| 第5章 实验与分析 | 第51-59页 |
| ·实验设计 | 第51-52页 |
| ·实验环境 | 第51页 |
| ·实验数据源 | 第51页 |
| ·实验内容 | 第51-52页 |
| ·实验评估 | 第52-55页 |
| ·简单规则提取 | 第52-54页 |
| ·复杂规则提取 | 第54-55页 |
| ·原型系统演示 | 第55-58页 |
| ·本章小结 | 第58-59页 |
| 第6章 总结 | 第59-61页 |
| ·工作总结 | 第59页 |
| ·未来工作 | 第59-61页 |
| 参考文献 | 第61-65页 |
| 附录一 | 第65-69页 |
| 附录二 | 第69-73页 |
| 致谢 | 第73-75页 |
| 攻读学位期间所发表的学术论文 | 第75页 |