基于树结构的网页数据自动抽取方法的研究与实现

目录	第1-7页
第一章导论	第7-10页
·网页数据抽取技术产生的背景	第7-8页
·本文研究的问题	第8页
·本文组织结构	第8-10页
第二章 Web数据抽取技术概述	第10-17页
·Web挖掘面临的问题	第10-11页
·什么是包装器	第11-12页
·包装器生成系统的发展及分类	第12-14页
·几种基于HTML 结构特征的工具	第14-16页
·本章小结	第16-17页
第三章网页预处理中几个关键问题的分析与研究	第17-32页
·问题的定义	第17-19页
·关于系统中各种文档的分析	第19-24页
·HTML网页面临的问题	第19-20页
·XHTML的优势	第20-21页
·文档对象模型(DOM)	第21-24页
·关于HTML文档的形式化定义	第24-29页
·网页预处理子系统	第29-31页
·HTML页面转换为XHTML文档的工具	第29页
·网页净化方法	第29-31页
·本章小结	第31-32页
第四章基于树结构的包装器自动生成算法研究与实现	第32-56页
·包装器生成算法的研究与实现	第32-48页
·模板推导问题的研究	第32-35页
·包装器生成算法	第35-41页
·关于DTAWE算法的讨论	第41-42页
·关于DTAWE算法的实现	第42-48页
·语义标识算法的设计与实现	第48-51页
·问题定义	第48-49页
·语义标识算法	第49-50页
·语义标识算法的实现	第50-51页
·数据抽取算法的研究与实现	第51-53页
·使用XML描述包装器	第51-52页
·数据抽取过程	第52-53页
·运行环境及测试结果	第53-54页
·运行环境	第53页
·测试结果	第53-54页
·本章小结	第54-56页
第五章总结与展望	第56-58页
·全文总结	第56页
·下一步工作	第56-58页
参考文献	第58-61页
摘要	第61-63页
Abstract	第63-66页
致谢	第66-67页
导师及作者简介	第67页