基于页面模块识别的Web文章自动抽取方法研究

摘要	第4-5页
Abstract	第5页
第1章绪论	第8-15页
1.1 课题研究的目的和意义	第8-9页
1.2 国内外研究和综述	第9-13页
1.2.1 页面分块技术的研究现状	第9-11页
1.2.2 信息抽取技术的研究现状	第11-13页
1.3 课题研究内容	第13页
1.4 本文结构安排	第13-15页
第2章 Web 文章页面分块与信息抽取的相关知识	第15-26页
2.1 Web 文章模型	第15-16页
2.2 页面特征与页面分块算法相关概念	第16-20页
2.2.1 视觉特征	第16-17页
2.2.2 DOM 树结构特征	第17-18页
2.2.3 VIPS 页面分块算法	第18-19页
2.2.4 自下而上的页面分块算法	第19-20页
2.3 分类聚类算法	第20-24页
2.3.1 贝叶斯分类算法	第20-21页
2.3.2 决策树分类算法	第21-23页
2.3.3 Single-Pass 聚类算法	第23-24页
2.4 性能评价指标	第24页
2.5 本章小结	第24-26页
第3章 Web 文章的正文识别方法	第26-39页
3.1 页面分块算法设计	第26-29页
3.1.1 文本块	第26-28页
3.1.2 基于 Block 节点的页面分块算法	第28-29页
3.2 Web 文章的正文识别方法设计	第29-34页
3.2.1 Web 文章正文特征分析	第29-30页
3.2.2 基于贝叶斯的识别方法	第30-31页
3.2.3 基于决策树的识别方法	第31页
3.2.4 基于 Single-Pass 的识别方法	第31-34页
3.2.5 Web 文章正文文本的抽取	第34页
3.3 实验结果与分析	第34-38页
3.4 本章小结	第38-39页
第4章 Web 文章辅助信息的识别方法	第39-50页
4.1 Web 文章标题的识别	第39-41页
4.1.1 Web 文章标题特征分析	第39-40页
4.1.2 Web 文章标题的识别方法	第40-41页
4.2 Web 文章摘要的识别	第41-43页
4.2.1 Web 文章摘要特征分析	第41-42页
4.2.2 Web 文章摘要的识别方法	第42-43页
4.3 Web 文章插图及其小标题的识别	第43-45页
4.3.1 Web 文章插图及其小标题特征分析	第43-44页
4.3.2 Web 文章插图及其小标题的识别方法	第44-45页
4.4 Web 文章相关链接列表的识别	第45-46页
4.4.1 Web 文章相关链接列表特征分析	第45页
4.4.2 Web 文章相关链接列表的识别方法	第45-46页
4.5 实验结果与分析	第46-48页
4.6 本章小结	第48-50页
第5章 Web 文章信息自动抽取系统	第50-55页
5.1 系统功能目标	第50页
5.2 系统总体设计	第50-52页
5.3 系统模块详细设计	第52-54页
5.3.1 特征提取模块	第52页
5.3.2 页面分块模块	第52-53页
5.3.3 语义块识别模块	第53-54页
5.3.4 信息抽取模块	第54页
5.4 本章小结	第54-55页
结论	第55-56页
参考文献	第56-62页
致谢	第62页