基于树结构的网页数据自动抽取方法的研究与实现
| 目录 | 第1-7页 |
| 第一章 导论 | 第7-10页 |
| ·网页数据抽取技术产生的背景 | 第7-8页 |
| ·本文研究的问题 | 第8页 |
| ·本文组织结构 | 第8-10页 |
| 第二章 Web数据抽取技术概述 | 第10-17页 |
| ·Web挖掘面临的问题 | 第10-11页 |
| ·什么是包装器 | 第11-12页 |
| ·包装器生成系统的发展及分类 | 第12-14页 |
| ·几种基于HTML 结构特征的工具 | 第14-16页 |
| ·本章小结 | 第16-17页 |
| 第三章 网页预处理中几个关键问题的分析与研究 | 第17-32页 |
| ·问题的定义 | 第17-19页 |
| ·关于系统中各种文档的分析 | 第19-24页 |
| ·HTML网页面临的问题 | 第19-20页 |
| ·XHTML的优势 | 第20-21页 |
| ·文档对象模型(DOM) | 第21-24页 |
| ·关于HTML文档的形式化定义 | 第24-29页 |
| ·网页预处理子系统 | 第29-31页 |
| ·HTML页面转换为XHTML文档的工具 | 第29页 |
| ·网页净化方法 | 第29-31页 |
| ·本章小结 | 第31-32页 |
| 第四章 基于树结构的包装器自动生成算法研究与实现 | 第32-56页 |
| ·包装器生成算法的研究与实现 | 第32-48页 |
| ·模板推导问题的研究 | 第32-35页 |
| ·包装器生成算法 | 第35-41页 |
| ·关于DTAWE算法的讨论 | 第41-42页 |
| ·关于DTAWE算法的实现 | 第42-48页 |
| ·语义标识算法的设计与实现 | 第48-51页 |
| ·问题定义 | 第48-49页 |
| ·语义标识算法 | 第49-50页 |
| ·语义标识算法的实现 | 第50-51页 |
| ·数据抽取算法的研究与实现 | 第51-53页 |
| ·使用XML描述包装器 | 第51-52页 |
| ·数据抽取过程 | 第52-53页 |
| ·运行环境及测试结果 | 第53-54页 |
| ·运行环境 | 第53页 |
| ·测试结果 | 第53-54页 |
| ·本章小结 | 第54-56页 |
| 第五章 总结与展望 | 第56-58页 |
| ·全文总结 | 第56页 |
| ·下一步工作 | 第56-58页 |
| 参考文献 | 第58-61页 |
| 摘要 | 第61-63页 |
| Abstract | 第63-66页 |
| 致谢 | 第66-67页 |
| 导师及作者简介 | 第67页 |