基于HTML Parser的Web信息提取技术

摘要	第1-5页
ABSTRACT	第5-9页
第一章引言	第9-13页
·课题背景	第9-10页
·国内外研究现状	第10-11页
·本论文工作	第11-13页
·选题依据	第11-12页
·本文内容	第12-13页
第二章 WEB信息提取技术综述	第13-27页
·什么是半结构化数据	第13页
·什么是(Web)信息提取	第13-16页
·信息提取系统的体系结构	第16-18页
·信息提取中的关键技术	第18-21页
·命名实体识别	第18-19页
·句法分析	第19页
·篇章分析与推理	第19-20页
·知识获取	第20-21页
·Web信息提取的分类	第21-24页
·Web内容提取	第21-22页
·Web结构提取	第22-23页
·Web使用记录提取	第23-24页
·Web信息提取的途径	第24-25页
·Web信息提取的评价标准	第25-26页
·本章小结	第26-27页
第三章 WEB页面的组成	第27-35页
·Web网页概述	第27-29页
·HTML介绍	第29-34页
·HTML简介	第29页
·HTML标签	第29-30页
·HTML特点	第30页
·HTML网页的相关标记	第30-34页
·本章小结	第34-35页
第四章开源技术HTMLPARSER和正则表达式	第35-42页
·开源技术HtmlParser	第35-38页
·HTMLParser项目的应用领域	第36页
·HTMLParser项目的部分成果	第36-38页
·正则表达式	第38-41页
·正则表达式的概念及语法	第38-40页
·Java中支持正则表达式的API	第40页
·本文正则表达式的应用	第40-41页
·本章小结	第41-42页
第五章 WEB信息提取模型分析	第42-52页
·基于主题的Web信息提取的分类	第42-43页
·广泛主题和具体主题的Web信息提取	第42页
·固定主题和可变主题的Web信息提取	第42-43页
·主题页面在Web上的分布特征	第43-44页
·Hub特性	第43页
·Sibling/Linkage Locality特性	第43页
·站点主题特性	第43-44页
·Tunnel特性	第44页
·四个特性的关系	第44页
·基于主题的Web信息提取系统模型	第44-51页
·系统模型	第44-45页
·主题的选择	第45页
·提取起点的选择	第45-46页
·Web Spider抓取页面	第46-49页
·提取预处理	第49页
·页面分析提取	第49-50页
·数据存储	第50-51页
·本章小结	第51-52页
第六章基于HTML PARSER的WEB信息提取的设计实现	第52-61页
·系统结构	第52-53页
·提取网站内部的电子邮件数据算法	第52页
·系统结构	第52-53页
·系统实现	第53-56页
·提取Deep层页面内链接	第53-54页
·提取各层页面的电子邮件信息	第54-55页
·存储提取的电子邮件信息	第55-56页
·系统运行结果及有效性评价	第56-59页
·查询显示提取的结果	第57-59页
·运行结果的有效性评价	第59页
·本章小结	第59-61页
第七章结束语	第61-62页
参考文献	第62-63页
致谢	第63-64页
攻读学位期间发表的学术论文	第64页