| 摘要 | 第1-8页 |
| ABSTRACT | 第8-15页 |
| 第一章 引言 | 第15-25页 |
| ·研究背景 | 第15-21页 |
| ·Web数据广泛存在且蕴涵丰富信息 | 第15-16页 |
| ·Web数据与传统数据库数据的鸿沟 | 第16-17页 |
| ·Web论坛重要性 | 第17-19页 |
| ·论坛数据抽取的应用场景 | 第19-20页 |
| ·论坛数据抽取的挑战 | 第20-21页 |
| ·主要贡献 | 第21-23页 |
| ·本文的章节安排 | 第23-25页 |
| 第二章 背景知识与相关领域研究现状 | 第25-41页 |
| ·基本概念 | 第25-29页 |
| ·Web页面构建 | 第25-26页 |
| ·文档对象模型 | 第26-28页 |
| ·Web数据抽取定义 | 第28-29页 |
| ·Web论坛概念与特征 | 第29-30页 |
| ·Web数据抽取相关研究工作 | 第30-39页 |
| ·基于文法规则和文法推演的抽取技术 | 第32-34页 |
| ·HTML敏感的自动抽取技术 | 第34-36页 |
| ·大规模的自动抽取技术 | 第36-39页 |
| ·论坛数据抽取 | 第39页 |
| ·本章总结 | 第39-41页 |
| 第三章 基于归纳逻辑和XPath模式学习的论坛数据抽取 | 第41-61页 |
| ·归纳逻辑程序设计 | 第41-43页 |
| ·逻辑程序基本概念 | 第41-42页 |
| ·归纳逻辑程序设计 | 第42-43页 |
| ·问题描述 | 第43-45页 |
| ·抽取系统框架 | 第45页 |
| ·XPath模式 | 第45-50页 |
| ·生成训练集 | 第46页 |
| ·XPath模式 | 第46-48页 |
| ·XPath模式映射 | 第48-50页 |
| ·XPath模式学习和映射规则生成 | 第50-55页 |
| ·XPath模式学习 | 第51-53页 |
| ·生成XPath模式映射规则 | 第53-55页 |
| ·试验结果与分析 | 第55-59页 |
| ·试验数据与设置 | 第55-58页 |
| ·结果与分析 | 第58-59页 |
| ·本章小结 | 第59-61页 |
| 第四章 基于路径依赖关系的非监督论坛数据抽取 | 第61-77页 |
| ·帖子页面特征分析 | 第62-64页 |
| ·非监督的论坛数据抽取问题定义 | 第64-66页 |
| ·模板区域侦测 | 第66-69页 |
| ·识别模板分割点 | 第66-67页 |
| ·模板级过滤 | 第67-69页 |
| ·抽取用户生成内容 | 第69-71页 |
| ·实验结果与分析 | 第71-75页 |
| ·实验数据与设置 | 第71-73页 |
| ·结果与分析 | 第73-75页 |
| ·本章小结 | 第75-77页 |
| 第五章 基于子结构最大化和内容依赖的论坛数据抽取规则构建 | 第77-99页 |
| ·论坛数据抽取示例 | 第77-78页 |
| ·问题分析 | 第78-81页 |
| ·生成抽取规则算法概览 | 第81页 |
| ·生成正则树规则 | 第81-87页 |
| ·发现用户区域 | 第83页 |
| ·正则树归纳 | 第83-84页 |
| ·静态子结构最大化 | 第84-87页 |
| ·抽取用户生成内容 | 第87-88页 |
| ·试验结果与分析 | 第88-95页 |
| ·试验数据与设置 | 第89-92页 |
| ·结果与分析 | 第92-95页 |
| ·本章小结 | 第95-99页 |
| 第六章 总结与展望 | 第99-103页 |
| ·总结 | 第99-100页 |
| ·未来工作展望 | 第100-103页 |
| 参考文献 | 第103-116页 |
| 攻读博士学位期间发表论文 | 第116-117页 |
| 致谢 | 第117页 |