Web页面正文信息提取算法

摘要	第1-5页
Abstract	第5-7页
目录	第7-9页
第1章绪论	第9-18页
·选题背景及意义	第9-10页
·研究现状	第10-16页
·基于统计学习的信息提取	第10-11页
·基于模板的信息提取	第11-12页
·基于DOM的信息提取	第12-13页
·基于视觉信息的信息提取	第13-15页
·抽取方法对比	第15-16页
·研究内容	第16-17页
·论文结构	第17-18页
第2章相关知识和理论	第18-27页
·数据挖掘	第18-20页
·数据挖掘的相关技术	第19页
·Web数据挖掘的概述	第19-20页
·HTML的概述	第20-23页
·HTML的发展	第20-21页
·HTML的语言特点	第21页
·HTML的编写规范	第21-23页
·DOM的概述	第23-26页
·DOM的节点	第23-24页
·DOM的接口	第24-26页
·本章小结	第26-27页
第3章基于Block-DOM的信息提取算法	第27-34页
·相关定义	第27页
·算法设计与描述	第27-32页
·清洗	第28-29页
·解析	第29-30页
·判别	第30-31页
·分块	第31页
·净化	第31页
·改进的提取算法	第31-32页
·实验与结果	第32-33页
·本章小结	第33-34页
第4章基于块和标签用途的信息提取算法	第34-41页
·相关定义	第34页
·系统设计和描述	第34-38页
·解析模块(Html parser)	第35页
·分块模块(Block device)	第35-36页
·文本提取模块(Text extractor)	第36-38页
·噪音词过滤模块(Noise eliminator)	第38页
·实验与结果	第38-40页
·本章小结	第40-41页
第5章总结与展望	第41-42页
参考文献	第42-44页
作者攻读学位期间发表的论文	第44-45页
致谢	第45-46页