首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于HTML Parser的Web信息提取技术

摘要第1-5页
ABSTRACT第5-9页
第一章 引言第9-13页
   ·课题背景第9-10页
   ·国内外研究现状第10-11页
   ·本论文工作第11-13页
     ·选题依据第11-12页
     ·本文内容第12-13页
第二章 WEB信息提取技术综述第13-27页
   ·什么是半结构化数据第13页
   ·什么是(Web)信息提取第13-16页
   ·信息提取系统的体系结构第16-18页
   ·信息提取中的关键技术第18-21页
     ·命名实体识别第18-19页
     ·句法分析第19页
     ·篇章分析与推理第19-20页
     ·知识获取第20-21页
   ·Web信息提取的分类第21-24页
     ·Web内容提取第21-22页
     ·Web结构提取第22-23页
     ·Web使用记录提取第23-24页
   ·Web信息提取的途径第24-25页
   ·Web信息提取的评价标准第25-26页
   ·本章小结第26-27页
第三章 WEB页面的组成第27-35页
   ·Web网页概述第27-29页
   ·HTML介绍第29-34页
     ·HTML简介第29页
     ·HTML标签第29-30页
     ·HTML特点第30页
     ·HTML网页的相关标记第30-34页
   ·本章小结第34-35页
第四章 开源技术HTMLPARSER和正则表达式第35-42页
   ·开源技术HtmlParser第35-38页
     ·HTMLParser项目的应用领域第36页
     ·HTMLParser项目的部分成果第36-38页
   ·正则表达式第38-41页
     ·正则表达式的概念及语法第38-40页
     ·Java中支持正则表达式的API第40页
     ·本文正则表达式的应用第40-41页
   ·本章小结第41-42页
第五章 WEB信息提取模型分析第42-52页
   ·基于主题的Web信息提取的分类第42-43页
     ·广泛主题和具体主题的Web信息提取第42页
     ·固定主题和可变主题的Web信息提取第42-43页
   ·主题页面在Web上的分布特征第43-44页
     ·Hub特性第43页
     ·Sibling/Linkage Locality特性第43页
     ·站点主题特性第43-44页
     ·Tunnel特性第44页
     ·四个特性的关系第44页
   ·基于主题的Web信息提取系统模型第44-51页
     ·系统模型第44-45页
     ·主题的选择第45页
     ·提取起点的选择第45-46页
     ·Web Spider抓取页面第46-49页
     ·提取预处理第49页
     ·页面分析提取第49-50页
     ·数据存储第50-51页
   ·本章小结第51-52页
第六章 基于HTML PARSER的WEB信息提取的设计实现第52-61页
   ·系统结构第52-53页
     ·提取网站内部的电子邮件数据算法第52页
     ·系统结构第52-53页
   ·系统实现第53-56页
     ·提取Deep层页面内链接第53-54页
     ·提取各层页面的电子邮件信息第54-55页
     ·存储提取的电子邮件信息第55-56页
   ·系统运行结果及有效性评价第56-59页
     ·查询显示提取的结果第57-59页
     ·运行结果的有效性评价第59页
   ·本章小结第59-61页
第七章 结束语第61-62页
参考文献第62-63页
致谢第63-64页
攻读学位期间发表的学术论文第64页

论文共64页,点击 下载论文
上一篇:首都体育馆内部运营机制研究
下一篇:中国上市公司资本结构优化