摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 引言 | 第9-13页 |
·课题背景 | 第9-10页 |
·国内外研究现状 | 第10-11页 |
·本论文工作 | 第11-13页 |
·选题依据 | 第11-12页 |
·本文内容 | 第12-13页 |
第二章 WEB信息提取技术综述 | 第13-27页 |
·什么是半结构化数据 | 第13页 |
·什么是(Web)信息提取 | 第13-16页 |
·信息提取系统的体系结构 | 第16-18页 |
·信息提取中的关键技术 | 第18-21页 |
·命名实体识别 | 第18-19页 |
·句法分析 | 第19页 |
·篇章分析与推理 | 第19-20页 |
·知识获取 | 第20-21页 |
·Web信息提取的分类 | 第21-24页 |
·Web内容提取 | 第21-22页 |
·Web结构提取 | 第22-23页 |
·Web使用记录提取 | 第23-24页 |
·Web信息提取的途径 | 第24-25页 |
·Web信息提取的评价标准 | 第25-26页 |
·本章小结 | 第26-27页 |
第三章 WEB页面的组成 | 第27-35页 |
·Web网页概述 | 第27-29页 |
·HTML介绍 | 第29-34页 |
·HTML简介 | 第29页 |
·HTML标签 | 第29-30页 |
·HTML特点 | 第30页 |
·HTML网页的相关标记 | 第30-34页 |
·本章小结 | 第34-35页 |
第四章 开源技术HTMLPARSER和正则表达式 | 第35-42页 |
·开源技术HtmlParser | 第35-38页 |
·HTMLParser项目的应用领域 | 第36页 |
·HTMLParser项目的部分成果 | 第36-38页 |
·正则表达式 | 第38-41页 |
·正则表达式的概念及语法 | 第38-40页 |
·Java中支持正则表达式的API | 第40页 |
·本文正则表达式的应用 | 第40-41页 |
·本章小结 | 第41-42页 |
第五章 WEB信息提取模型分析 | 第42-52页 |
·基于主题的Web信息提取的分类 | 第42-43页 |
·广泛主题和具体主题的Web信息提取 | 第42页 |
·固定主题和可变主题的Web信息提取 | 第42-43页 |
·主题页面在Web上的分布特征 | 第43-44页 |
·Hub特性 | 第43页 |
·Sibling/Linkage Locality特性 | 第43页 |
·站点主题特性 | 第43-44页 |
·Tunnel特性 | 第44页 |
·四个特性的关系 | 第44页 |
·基于主题的Web信息提取系统模型 | 第44-51页 |
·系统模型 | 第44-45页 |
·主题的选择 | 第45页 |
·提取起点的选择 | 第45-46页 |
·Web Spider抓取页面 | 第46-49页 |
·提取预处理 | 第49页 |
·页面分析提取 | 第49-50页 |
·数据存储 | 第50-51页 |
·本章小结 | 第51-52页 |
第六章 基于HTML PARSER的WEB信息提取的设计实现 | 第52-61页 |
·系统结构 | 第52-53页 |
·提取网站内部的电子邮件数据算法 | 第52页 |
·系统结构 | 第52-53页 |
·系统实现 | 第53-56页 |
·提取Deep层页面内链接 | 第53-54页 |
·提取各层页面的电子邮件信息 | 第54-55页 |
·存储提取的电子邮件信息 | 第55-56页 |
·系统运行结果及有效性评价 | 第56-59页 |
·查询显示提取的结果 | 第57-59页 |
·运行结果的有效性评价 | 第59页 |
·本章小结 | 第59-61页 |
第七章 结束语 | 第61-62页 |
参考文献 | 第62-63页 |
致谢 | 第63-64页 |
攻读学位期间发表的学术论文 | 第64页 |