针对模板生成网页的数据自动抽取方法的探讨与应用

摘要	第1-9页
Abstract	第9-13页
第1章绪论	第13-19页
·论文研究背景及意义	第13-14页
·国内外研究现状	第14-16页
·论文的研究内容及创新之处	第16-17页
·论文组织结构	第17-19页
第2章 Web信息抽取技术的相关概述	第19-28页
·Web页面数据的半结构化特征	第19-20页
·Web信息抽取技术的介绍	第20-21页
·Web信息抽取技术的发展现状	第21-25页
·Web信息抽取技术的分类	第21-24页
·Web信息抽取技术存在的问题和不足	第24-25页
·Web信息抽取系统的评测指标	第25-27页
·本章小结	第27-28页
第3章相关理论准备	第28-37页
·HTML介绍	第28-31页
·HTML语言的发展历史	第28页
·HTML语言的基本功能和特点	第28-30页
·HTML语言的局限性	第30-31页
·XML介绍	第31-32页
·XHTML介绍	第32-33页
·网页预处理	第33-35页
·HTML向XHTML转换	第34-35页
·XHTML文档解析成树结构	第35-36页
·文档对象模型(DOM)	第35-36页
·本章小结	第36-37页
第4章针对模板生成网页的数据自动抽取方法的设计与实现	第37-62页
·文中涉及的主要概念	第39-45页
·Web页面表示	第39-41页
·模板和模板检测的定义	第41-42页
·Ctoken的定义	第42-45页
·针对模板生成网页的数据自动抽取方法的原型系统的设计	第45-47页
·系统设计的总体框架	第45-47页
·系统的基本设计思想	第47页
·针对模板生成网页的数据自动抽取方法的实现	第47-60页
·HTML页面预处理	第47-48页
·HTML页面解析	第48-50页
·标签树匹配算法	第50-53页
·计算Ctokens	第53-58页
·网页模板的构造和网页中有效数据的自动抽取	第58-60页
·本章小结	第60-62页
第5章针对模板生成网页的数据自动抽取方法的实验	第62-69页
·实验平台	第62-63页
·针对模板生成网页的数据自动抽取方法的工作流程	第63-64页
·在某电子商务网站上的应用	第64-66页
·实验结果分析	第66-68页
·本章小结	第68-69页
第6章总结与展望	第69-71页
·论文总结	第69-70页
·未来工作展望	第70-71页
参考文献	第71-74页
致谢	第74-75页
攻读硕士学位期间发表的学术论文及参与的项目与实践	第75页