基于树结构的网页数据自动抽取方法的研究与实现
目录 | 第1-7页 |
第一章 导论 | 第7-10页 |
·网页数据抽取技术产生的背景 | 第7-8页 |
·本文研究的问题 | 第8页 |
·本文组织结构 | 第8-10页 |
第二章 Web数据抽取技术概述 | 第10-17页 |
·Web挖掘面临的问题 | 第10-11页 |
·什么是包装器 | 第11-12页 |
·包装器生成系统的发展及分类 | 第12-14页 |
·几种基于HTML 结构特征的工具 | 第14-16页 |
·本章小结 | 第16-17页 |
第三章 网页预处理中几个关键问题的分析与研究 | 第17-32页 |
·问题的定义 | 第17-19页 |
·关于系统中各种文档的分析 | 第19-24页 |
·HTML网页面临的问题 | 第19-20页 |
·XHTML的优势 | 第20-21页 |
·文档对象模型(DOM) | 第21-24页 |
·关于HTML文档的形式化定义 | 第24-29页 |
·网页预处理子系统 | 第29-31页 |
·HTML页面转换为XHTML文档的工具 | 第29页 |
·网页净化方法 | 第29-31页 |
·本章小结 | 第31-32页 |
第四章 基于树结构的包装器自动生成算法研究与实现 | 第32-56页 |
·包装器生成算法的研究与实现 | 第32-48页 |
·模板推导问题的研究 | 第32-35页 |
·包装器生成算法 | 第35-41页 |
·关于DTAWE算法的讨论 | 第41-42页 |
·关于DTAWE算法的实现 | 第42-48页 |
·语义标识算法的设计与实现 | 第48-51页 |
·问题定义 | 第48-49页 |
·语义标识算法 | 第49-50页 |
·语义标识算法的实现 | 第50-51页 |
·数据抽取算法的研究与实现 | 第51-53页 |
·使用XML描述包装器 | 第51-52页 |
·数据抽取过程 | 第52-53页 |
·运行环境及测试结果 | 第53-54页 |
·运行环境 | 第53页 |
·测试结果 | 第53-54页 |
·本章小结 | 第54-56页 |
第五章 总结与展望 | 第56-58页 |
·全文总结 | 第56页 |
·下一步工作 | 第56-58页 |
参考文献 | 第58-61页 |
摘要 | 第61-63页 |
Abstract | 第63-66页 |
致谢 | 第66-67页 |
导师及作者简介 | 第67页 |