首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于HTML网页的Web信息提取研究

第一章 绪论第1-13页
   ·引言第8-9页
   ·Web 信息提取的应用第9-11页
   ·本文主要内容第11-13页
第二章 Web 信息提取技术综述第13-36页
   ·什么是半结构化数据第13-14页
   ·什么是(Web)信息提取第14-16页
   ·信息提取技术的发展历史第16-18页
   ·信息提取系统的体系结构第18-20页
   ·信息提取中的关键技术第20-24页
     ·命名实体识别第20-21页
     ·句法分析第21-22页
     ·篇章分析与推理第22-23页
     ·知识获取第23-24页
   ·Web 信息提取的分类第24-27页
     ·Web 内容提取第24-25页
     ·Web 结构提取第25-26页
     ·Web 使用记录提取第26-27页
   ·Web 信息提取的途径第27-29页
   ·Web 信息提取的评价标准第29-30页
   ·Web 信息提取算法第30-34页
     ·基于 HMM(隐马尔可夫模型)的信息提取算法第30-31页
     ·基于关系学习(Relational Learning)的信息提取第31-34页
   ·典型系统 WHISK 简介第34-35页
   ·本章总结第35-36页
第三章 Web 信息提取的预处理第36-41页
   ·过滤器体系结构第36-37页
   ·网页的过滤和识别第37-39页
   ·URL 聚类第39-40页
   ·本章总结第40-41页
第四章 基于 HTML 结构树的模板网页主题信息提取第41-50页
   ·技术分析第41-42页
   ·网页结构树的构造第42-45页
     ·HTML 文档特点第42-43页
     ·网页地址树第43页
     ·网页文档对象模型树第43-45页
   ·利用网页结构树模块化网页主题信息的提取算法第45-49页
     ·训练阶段第45页
     ·模板定义第45-46页
     ·模板生成第46-47页
     ·提取阶段第47-49页
   ·本章总结第49-50页
第五章 提取系统模型分析第50-66页
   ·基于主题的Web 信息提取的分类第50-51页
     ·广泛主题和具体主题的 Web 信息提取第50页
     ·固定主题和可变主题的 Web 信息提取第50-51页
   ·主题页面在Web 上的分布特征第51-53页
     ·Hub 特性第51页
     ·Sibling/Linkage Locality 特性第51页
     ·站点主题特性第51-52页
     ·Tunnel 特性第52页
     ·四个特性的关系第52-53页
   ·基于主题的Web 信息提取系统模型第53-64页
     ·系统模型第53-54页
     ·主题的选择第54页
     ·提取起点的选择第54页
     ·Web Spider 抓取页面第54-56页
     ·提取预处理第56页
     ·页面分析提取第56-58页
       ·链接的提取第56-57页
       ·电子邮件的提取第57页
       ·标题的提取第57-58页
     ·主题信息的提取第58-60页
       ·构造主题词典第58-59页
       ·网页文本的分词第59页
       ·网页文本主题的识别第59-60页
     ·URL 与主题的相关性判定第60-63页
       ·链接分析方法:PageRank 算法第61-62页
       ·IPageRank 算法第62-63页
     ·页面与主题的相关性判定第63页
     ·数据存储第63-64页
   ·实例分析第64-65页
   ·本章总结第65-66页
第六章 结论与展望第66-67页
参考文献第67-70页
致谢第70-71页
作者简历及发表的学术论文第71页

论文共71页,点击 下载论文
上一篇:车辆悬架系统动特性分析及半主动控制研究
下一篇:碳酸二甲酯与苯酚酯交换反应合成碳酸二苯酯的研究