基于群体特征的页面抽取方法研究

摘要	第5-6页
Abstract	第6-7页
第1章引言	第10-13页
1.1 背景及意义	第10页
1.2 存在问题	第10-11页
1.3 研究内容及方案	第11-12页
1.3.1 研究内容	第11页
1.3.2 主要问题	第11-12页
1.3.3 研究方案	第12页
1.4 本章小结	第12-13页
第2章 Web信息抽取综述	第13-19页
2.1 信息抽取概述	第13-14页
2.2 Web信息抽取方法	第14-16页
2.2.1 基于自然语言理解的抽取	第14-15页
2.2.2 基于本体（ontology）的抽取	第15页
2.2.3 基于HTML结构的抽取	第15-16页
2.3 Web信息抽取评价指标	第16-17页
2.4 Web抽取存在的问题	第17页
2.5 本章小结	第17-19页
第3章模板提取	第19-36页
3.1 相关技术介绍	第19-20页
3.1.1 DOM	第19页
3.1.2 XPath	第19-20页
3.1.3 模板引擎	第20页
3.2 样本融合	第20-23页
3.2.1 网站模板与正文	第21页
3.2.2 页面分块与正文	第21-22页
3.2.3 样本分析与建树	第22-23页
3.3 DOM节点标识	第23-26页
3.4 样本DOM树的融合	第26-30页
3.4.1 融合结果的结构	第26-27页
3.4.2 样本融合的过程	第27-30页
3.4.3 融合的性能分析	第30页
3.5 正文与模板提取	第30-35页
3.5.1 节点变化度	第30-33页
3.5.2 节点权重	第33页
3.5.3 正文块与模板提取	第33-35页
3.6 本章小结	第35-36页
第4章样本采集与管理	第36-42页
4.1 URL泛化	第36-37页
4.1.1 URL基本组成	第36-37页
4.1.2 URL泛化方法	第37页
4.2 样本聚合与采集	第37-40页
4.2.1 样本采集	第38-39页
4.2.2 样本聚合控制	第39-40页
4.3 模板更新	第40-41页
4.4 本章小结	第41-42页
第5章抽取系统的设计与实现	第42-61页
5.1 系统设计	第42-57页
5.1.1 系统整体架构	第42-43页
5.1.2 数据库设计	第43-46页
5.1.3 模型层设计	第46-48页
5.1.4 DOM解析器设计	第48-50页
5.1.5 调度控制模块	第50-51页
5.1.6 样本采集模块	第51-52页
5.1.7 模板提取模块	第52-55页
5.1.8 页面抽取模块	第55-57页
5.2 系统实现	第57-60页
5.3 本章小结	第60-61页
第6章总结与展望	第61-63页
6.1 总结	第61-62页
6.2 展望	第62-63页
致谢	第63-64页
参考文献	第64-67页
附录	第67页