Web论坛数据抽取

摘要	第1-8页
ABSTRACT	第8-15页
第一章引言	第15-25页
·研究背景	第15-21页
·Web数据广泛存在且蕴涵丰富信息	第15-16页
·Web数据与传统数据库数据的鸿沟	第16-17页
·Web论坛重要性	第17-19页
·论坛数据抽取的应用场景	第19-20页
·论坛数据抽取的挑战	第20-21页
·主要贡献	第21-23页
·本文的章节安排	第23-25页
第二章背景知识与相关领域研究现状	第25-41页
·基本概念	第25-29页
·Web页面构建	第25-26页
·文档对象模型	第26-28页
·Web数据抽取定义	第28-29页
·Web论坛概念与特征	第29-30页
·Web数据抽取相关研究工作	第30-39页
·基于文法规则和文法推演的抽取技术	第32-34页
·HTML敏感的自动抽取技术	第34-36页
·大规模的自动抽取技术	第36-39页
·论坛数据抽取	第39页
·本章总结	第39-41页
第三章基于归纳逻辑和XPath模式学习的论坛数据抽取	第41-61页
·归纳逻辑程序设计	第41-43页
·逻辑程序基本概念	第41-42页
·归纳逻辑程序设计	第42-43页
·问题描述	第43-45页
·抽取系统框架	第45页
·XPath模式	第45-50页
·生成训练集	第46页
·XPath模式	第46-48页
·XPath模式映射	第48-50页
·XPath模式学习和映射规则生成	第50-55页
·XPath模式学习	第51-53页
·生成XPath模式映射规则	第53-55页
·试验结果与分析	第55-59页
·试验数据与设置	第55-58页
·结果与分析	第58-59页
·本章小结	第59-61页
第四章基于路径依赖关系的非监督论坛数据抽取	第61-77页
·帖子页面特征分析	第62-64页
·非监督的论坛数据抽取问题定义	第64-66页
·模板区域侦测	第66-69页
·识别模板分割点	第66-67页
·模板级过滤	第67-69页
·抽取用户生成内容	第69-71页
·实验结果与分析	第71-75页
·实验数据与设置	第71-73页
·结果与分析	第73-75页
·本章小结	第75-77页
第五章基于子结构最大化和内容依赖的论坛数据抽取规则构建	第77-99页
·论坛数据抽取示例	第77-78页
·问题分析	第78-81页
·生成抽取规则算法概览	第81页
·生成正则树规则	第81-87页
·发现用户区域	第83页
·正则树归纳	第83-84页
·静态子结构最大化	第84-87页
·抽取用户生成内容	第87-88页
·试验结果与分析	第88-95页
·试验数据与设置	第89-92页
·结果与分析	第92-95页
·本章小结	第95-99页
第六章总结与展望	第99-103页
·总结	第99-100页
·未来工作展望	第100-103页
参考文献	第103-116页
攻读博士学位期间发表论文	第116-117页
致谢	第117页