第一章 绪论 | 第1-13页 |
·引言 | 第8-9页 |
·Web 信息提取的应用 | 第9-11页 |
·本文主要内容 | 第11-13页 |
第二章 Web 信息提取技术综述 | 第13-36页 |
·什么是半结构化数据 | 第13-14页 |
·什么是(Web)信息提取 | 第14-16页 |
·信息提取技术的发展历史 | 第16-18页 |
·信息提取系统的体系结构 | 第18-20页 |
·信息提取中的关键技术 | 第20-24页 |
·命名实体识别 | 第20-21页 |
·句法分析 | 第21-22页 |
·篇章分析与推理 | 第22-23页 |
·知识获取 | 第23-24页 |
·Web 信息提取的分类 | 第24-27页 |
·Web 内容提取 | 第24-25页 |
·Web 结构提取 | 第25-26页 |
·Web 使用记录提取 | 第26-27页 |
·Web 信息提取的途径 | 第27-29页 |
·Web 信息提取的评价标准 | 第29-30页 |
·Web 信息提取算法 | 第30-34页 |
·基于 HMM(隐马尔可夫模型)的信息提取算法 | 第30-31页 |
·基于关系学习(Relational Learning)的信息提取 | 第31-34页 |
·典型系统 WHISK 简介 | 第34-35页 |
·本章总结 | 第35-36页 |
第三章 Web 信息提取的预处理 | 第36-41页 |
·过滤器体系结构 | 第36-37页 |
·网页的过滤和识别 | 第37-39页 |
·URL 聚类 | 第39-40页 |
·本章总结 | 第40-41页 |
第四章 基于 HTML 结构树的模板网页主题信息提取 | 第41-50页 |
·技术分析 | 第41-42页 |
·网页结构树的构造 | 第42-45页 |
·HTML 文档特点 | 第42-43页 |
·网页地址树 | 第43页 |
·网页文档对象模型树 | 第43-45页 |
·利用网页结构树模块化网页主题信息的提取算法 | 第45-49页 |
·训练阶段 | 第45页 |
·模板定义 | 第45-46页 |
·模板生成 | 第46-47页 |
·提取阶段 | 第47-49页 |
·本章总结 | 第49-50页 |
第五章 提取系统模型分析 | 第50-66页 |
·基于主题的Web 信息提取的分类 | 第50-51页 |
·广泛主题和具体主题的 Web 信息提取 | 第50页 |
·固定主题和可变主题的 Web 信息提取 | 第50-51页 |
·主题页面在Web 上的分布特征 | 第51-53页 |
·Hub 特性 | 第51页 |
·Sibling/Linkage Locality 特性 | 第51页 |
·站点主题特性 | 第51-52页 |
·Tunnel 特性 | 第52页 |
·四个特性的关系 | 第52-53页 |
·基于主题的Web 信息提取系统模型 | 第53-64页 |
·系统模型 | 第53-54页 |
·主题的选择 | 第54页 |
·提取起点的选择 | 第54页 |
·Web Spider 抓取页面 | 第54-56页 |
·提取预处理 | 第56页 |
·页面分析提取 | 第56-58页 |
·链接的提取 | 第56-57页 |
·电子邮件的提取 | 第57页 |
·标题的提取 | 第57-58页 |
·主题信息的提取 | 第58-60页 |
·构造主题词典 | 第58-59页 |
·网页文本的分词 | 第59页 |
·网页文本主题的识别 | 第59-60页 |
·URL 与主题的相关性判定 | 第60-63页 |
·链接分析方法:PageRank 算法 | 第61-62页 |
·IPageRank 算法 | 第62-63页 |
·页面与主题的相关性判定 | 第63页 |
·数据存储 | 第63-64页 |
·实例分析 | 第64-65页 |
·本章总结 | 第65-66页 |
第六章 结论与展望 | 第66-67页 |
参考文献 | 第67-70页 |
致谢 | 第70-71页 |
作者简历及发表的学术论文 | 第71页 |