首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于REIE的Web信息抽取技术研究

摘要第1-4页
Abstract第4-7页
第一章 绪论第7-11页
   ·引言第7页
   ·课题背景及意义第7-8页
   ·Web 信息抽取技术的发展与现状第8-9页
   ·本文的研究工作第9-10页
   ·论文的组织结构第10-11页
第二章 Web 文本分析与挖掘第11-21页
   ·Web 文本分析第11-16页
     ·网页预处理第11-12页
     ·页内链接抽取第12-13页
     ·正文文本抽取第13页
     ·中文分词技术第13-14页
     ·特征向量的项权重第14-16页
   ·Web 文本挖掘第16-20页
     ·Web 文本挖掘的定义第16-17页
     ·文本特征项提取第17页
     ·文本关联第17-18页
     ·文本分类第18页
     ·文本聚类第18-20页
   ·本章小结第20-21页
第三章 Web 信息抽取技术第21-31页
   ·Web 信息抽取技术概述第21-22页
   ·Web 信息抽取体系结构第22-27页
     ·Web 页面的特点第24页
     ·Web 网页格式分析第24-27页
   ·Web 信息抽取的典型方法第27-29页
     ·基于自然语言处理方式的信息抽取第27页
     ·基于 HTML 结构的信息抽取第27-28页
     ·基于本体(Ontology)的信息抽取第28-29页
   ·信息抽取系统的评价标准第29-30页
   ·本章小结第30-31页
第四章 基于 REIE 的信息抽取第31-43页
   ·HTMLParser 包第31-34页
     ·DOM、SAX 解析方式第31-32页
     ·HTMLParser 包解析方式第32-33页
     ·HTMLParser 的抽取原理第33页
     ·HTMLParser 的数据结构第33-34页
   ·正则表达式第34-36页
     ·正则表达式的定义第34-35页
     ·正则表达式的常用举例第35-36页
   ·REIE 算法第36-41页
   ·本章小结第41-43页
第五章 网页内容抽取系统的实现第43-55页
   ·网页预处理模块第43-46页
     ·boost 正则表达式库第43-45页
     ·过滤网页的无用标记第45-46页
   ·网页信息抽取模块第46-47页
   ·系统的实现与功能分析第47-54页
     ·系统的设计与理论第47-49页
     ·系统的基本功能演示第49-53页
     ·系统的性能分析第53-54页
   ·本章小结第54-55页
第六章 总结和展望第55-57页
   ·本论文工作总结第55页
   ·工作展望第55-57页
致谢第57-59页
参考文献第59-63页
硕士在读期间的研究成果第63-64页

论文共64页,点击 下载论文
上一篇:基于层次分析与灰度关联的综合化航空电子安全性评估方法
下一篇:税务系统数据仓库的构建及研究