基于语义DOM的WEB信息抽取

摘要	第1-4页
Abstract	第4-6页
目录	第6-9页
1. 绪论	第9-14页
·选题背景和研究意义	第9页
·信息抽取技术的发展历史	第9-11页
·国内外研究状况	第11-12页
·本文主要工作	第12页
·论文结构	第12-14页
2. Web挖掘技术综述	第14-23页
·数据挖掘	第14-15页
·数据挖掘的概念	第14页
·数据挖掘的常用技术	第14-15页
·WEB数据挖掘概念	第15页
·DOM定义	第15-19页
·DOM应用	第16-17页
·DOM标准中的四个基本接口	第17-19页
·XHTML技术	第19-20页
·XHTML定义	第19页
·XHTML特点	第19页
·XHTML与HTML差异	第19-20页
·语义化	第20-22页
·语义标签定义	第20页
·语义标签作用	第20页
·语义标签实践	第20-21页
·标签的意义	第21-22页
·本章小结	第22-23页
3. 基于Web页面模板规则提取	第23-27页
·Web页面模板相关研究	第23-24页
·模板特征的提取规则	第24-25页
·模板特征抽取算法	第25-26页
·实验与结果分析	第26页
·实验	第26页
·结果分析	第26页
·本章小结	第26-27页
4. 基于Dom树的Web信息提取	第27-31页
·Web信息提取的几种方法介绍	第27页
·基于分块的Web信息提取	第27页
·基于HTML代码密度的正文提取方法	第27页
·基于FFT的网页正文提取方法	第27页
·相关定义	第27-28页
·节点文本统计	第28-29页
·节点加权筛选	第29-30页
·实验与结果分析	第30页
·实验	第30页
·结果分析	第30页
·本章小结	第30-31页
5. 基于语义dom的web信息抽取	第31-39页
·基于语义dom抽取的体系结构	第31-33页
·系统内部实现原理	第31页
·系统工作流程	第31-33页
·网页数据标准化	第33页
·HTML转换为XHTML	第33-37页
·DOM树构造器概述	第33-34页
·DOM树构造器原理	第34-35页
·语义分析器与剪枝器	第35-37页
·实验与结果分析	第37-38页
·实验开发工具和平台	第37-38页
·实验	第38页
·结果分析	第38页
·本章小结	第38-39页
6. 结论和展望	第39-41页
·论文工作总结	第39页
·下一步工作	第39-41页
参考文献	第41-45页
攻读硕士学位期间的科研成果	第45-46页
致谢	第46-47页