摘要 | 第1-8页 |
ABSTRACT | 第8-15页 |
第一章 引言 | 第15-25页 |
·研究背景 | 第15-21页 |
·Web数据广泛存在且蕴涵丰富信息 | 第15-16页 |
·Web数据与传统数据库数据的鸿沟 | 第16-17页 |
·Web论坛重要性 | 第17-19页 |
·论坛数据抽取的应用场景 | 第19-20页 |
·论坛数据抽取的挑战 | 第20-21页 |
·主要贡献 | 第21-23页 |
·本文的章节安排 | 第23-25页 |
第二章 背景知识与相关领域研究现状 | 第25-41页 |
·基本概念 | 第25-29页 |
·Web页面构建 | 第25-26页 |
·文档对象模型 | 第26-28页 |
·Web数据抽取定义 | 第28-29页 |
·Web论坛概念与特征 | 第29-30页 |
·Web数据抽取相关研究工作 | 第30-39页 |
·基于文法规则和文法推演的抽取技术 | 第32-34页 |
·HTML敏感的自动抽取技术 | 第34-36页 |
·大规模的自动抽取技术 | 第36-39页 |
·论坛数据抽取 | 第39页 |
·本章总结 | 第39-41页 |
第三章 基于归纳逻辑和XPath模式学习的论坛数据抽取 | 第41-61页 |
·归纳逻辑程序设计 | 第41-43页 |
·逻辑程序基本概念 | 第41-42页 |
·归纳逻辑程序设计 | 第42-43页 |
·问题描述 | 第43-45页 |
·抽取系统框架 | 第45页 |
·XPath模式 | 第45-50页 |
·生成训练集 | 第46页 |
·XPath模式 | 第46-48页 |
·XPath模式映射 | 第48-50页 |
·XPath模式学习和映射规则生成 | 第50-55页 |
·XPath模式学习 | 第51-53页 |
·生成XPath模式映射规则 | 第53-55页 |
·试验结果与分析 | 第55-59页 |
·试验数据与设置 | 第55-58页 |
·结果与分析 | 第58-59页 |
·本章小结 | 第59-61页 |
第四章 基于路径依赖关系的非监督论坛数据抽取 | 第61-77页 |
·帖子页面特征分析 | 第62-64页 |
·非监督的论坛数据抽取问题定义 | 第64-66页 |
·模板区域侦测 | 第66-69页 |
·识别模板分割点 | 第66-67页 |
·模板级过滤 | 第67-69页 |
·抽取用户生成内容 | 第69-71页 |
·实验结果与分析 | 第71-75页 |
·实验数据与设置 | 第71-73页 |
·结果与分析 | 第73-75页 |
·本章小结 | 第75-77页 |
第五章 基于子结构最大化和内容依赖的论坛数据抽取规则构建 | 第77-99页 |
·论坛数据抽取示例 | 第77-78页 |
·问题分析 | 第78-81页 |
·生成抽取规则算法概览 | 第81页 |
·生成正则树规则 | 第81-87页 |
·发现用户区域 | 第83页 |
·正则树归纳 | 第83-84页 |
·静态子结构最大化 | 第84-87页 |
·抽取用户生成内容 | 第87-88页 |
·试验结果与分析 | 第88-95页 |
·试验数据与设置 | 第89-92页 |
·结果与分析 | 第92-95页 |
·本章小结 | 第95-99页 |
第六章 总结与展望 | 第99-103页 |
·总结 | 第99-100页 |
·未来工作展望 | 第100-103页 |
参考文献 | 第103-116页 |
攻读博士学位期间发表论文 | 第116-117页 |
致谢 | 第117页 |