基于REIE的Web信息抽取技术研究

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-11页
·引言	第7页
·课题背景及意义	第7-8页
·Web 信息抽取技术的发展与现状	第8-9页
·本文的研究工作	第9-10页
·论文的组织结构	第10-11页
第二章 Web 文本分析与挖掘	第11-21页
·Web 文本分析	第11-16页
·网页预处理	第11-12页
·页内链接抽取	第12-13页
·正文文本抽取	第13页
·中文分词技术	第13-14页
·特征向量的项权重	第14-16页
·Web 文本挖掘	第16-20页
·Web 文本挖掘的定义	第16-17页
·文本特征项提取	第17页
·文本关联	第17-18页
·文本分类	第18页
·文本聚类	第18-20页
·本章小结	第20-21页
第三章 Web 信息抽取技术	第21-31页
·Web 信息抽取技术概述	第21-22页
·Web 信息抽取体系结构	第22-27页
·Web 页面的特点	第24页
·Web 网页格式分析	第24-27页
·Web 信息抽取的典型方法	第27-29页
·基于自然语言处理方式的信息抽取	第27页
·基于 HTML 结构的信息抽取	第27-28页
·基于本体（Ontology）的信息抽取	第28-29页
·信息抽取系统的评价标准	第29-30页
·本章小结	第30-31页
第四章基于 REIE 的信息抽取	第31-43页
·HTMLParser 包	第31-34页
·DOM、SAX 解析方式	第31-32页
·HTMLParser 包解析方式	第32-33页
·HTMLParser 的抽取原理	第33页
·HTMLParser 的数据结构	第33-34页
·正则表达式	第34-36页
·正则表达式的定义	第34-35页
·正则表达式的常用举例	第35-36页
·REIE 算法	第36-41页
·本章小结	第41-43页
第五章网页内容抽取系统的实现	第43-55页
·网页预处理模块	第43-46页
·boost 正则表达式库	第43-45页
·过滤网页的无用标记	第45-46页
·网页信息抽取模块	第46-47页
·系统的实现与功能分析	第47-54页
·系统的设计与理论	第47-49页
·系统的基本功能演示	第49-53页
·系统的性能分析	第53-54页
·本章小结	第54-55页
第六章总结和展望	第55-57页
·本论文工作总结	第55页
·工作展望	第55-57页
致谢	第57-59页
参考文献	第59-63页
硕士在读期间的研究成果	第63-64页