首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

半结构化网页的信息抽取技术研究

摘要第1-5页
Abstract第5-8页
第一章 前言第8-16页
   ·课题背景与意义第8-9页
   ·国内外研究现状第9-13页
   ·论文研究内容第13-14页
   ·论文组织结构第14-16页
第二章 网页信息抽取技术综述第16-25页
   ·网页信息抽取技术概念第16页
   ·网页信息抽取要解决的主要问题第16-17页
   ·网页信息抽取的关键技术第17-20页
     ·DOM 模型第17-18页
     ·树编辑距离第18-19页
     ·HtmlParser 技术第19-20页
   ·网页信息抽取技术分类第20-23页
     ·手工构造的抽取系统第21-22页
     ·基于监督的抽取系统第22-23页
     ·基于半监督的抽取系统第23页
     ·无监督的抽取系统第23页
   ·信息抽取评价标准第23-24页
   ·本章小结第24-25页
第三章 基于树编辑距离聚类算法的网页信息抽取第25-35页
   ·网页预处理第25-26页
   ·主数据区域发现第26-28页
   ·数据记录的分离第28-33页
     ·简单树匹配算法第28-31页
     ·聚类算法第31-33页
     ·选择最佳分割方案第33页
   ·本章小结第33-35页
第四章 数据记录属性抽取第35-40页
   ·序列比对算法简介第35-38页
     ·序列比对问题的起源第35页
     ·序列比对问题定义第35页
     ·序列比对算法分类第35-38页
   ·抽取数据记录属性第38-39页
   ·本章小结第39-40页
第五章 实验系统设计第40-51页
   ·开发工具以及实验环境第40页
   ·信息抽取系统设计第40-47页
     ·网页预处理模块第41页
     ·主数据区域定位模块第41页
     ·数据记录分离模块第41-43页
     ·数据记录属性抽取模块第43-44页
     ·实验运行结果及分析第44-47页
   ·基于Lucene 的简单搜索引擎第47-50页
     ·Lucene 简介第47-48页
     ·本文所用插件简介第48-50页
   ·本章小结第50-51页
总结第51-53页
 主要工作第51-52页
 主要创新点第52页
 存在的问题及未来的方向第52-53页
参考文献第53-57页
致谢第57页

论文共57页,点击 下载论文
上一篇:物联网环境下基于QoS的Web服务组合研究
下一篇:人工免疫技术在网络入侵检测系统中的应用与研究