首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

Web信息自动抽取技术研究

摘 要第1-4页
Abstract第4-7页
第一章 绪论第7-11页
   ·选题背景和意义第7-8页
   ·Web信息抽取研究现状第8-9页
   ·本文主要内容第9页
   ·本文组织第9-11页
第二章 Web信息抽取技术第11-21页
   ·Web信息抽取概念第11-12页
   ·Web信息抽取系统的一般实现第12-17页
     ·基于自然语言理解方式的信息抽取第12-13页
     ·基于包装器的信息抽取第13-14页
     ·基于ontology方式的信息抽取第14-15页
     ·基于HTML结构的信息抽取第15-17页
   ·Web信息抽取系统的关键技术第17-18页
     ·抽取规则的生成第17-18页
     ·机器学习与归纳学习方法第18页
   ·Web信息抽取系统的评价指标第18-19页
   ·Web信息抽取存在的问题第19-21页
第三章 基于信息熵的Web信息自动抽取方法第21-35页
   ·方法概述第21-24页
     ·主题Web页面第21页
     ·信息熵第21-24页
     ·基本设计思想第24页
   ·平台的整体框架第24-25页
   ·主题Web页面获取技术第25-27页
     ·基于主题的Web信息采集第25-26页
     ·基于Agent的信息采集第26-27页
   ·HTML解析器第27-29页
     ·清洗(TIDY)页面文档第27-28页
     ·页面解析(PARSER)第28-29页
   ·构造STU-DOM树第29-30页
   ·剪枝算法第30-32页
     ·信息熵计算第30-31页
     ·剪枝规则第31页
     ·剪枝示例第31-32页
   ·实验结果第32-34页
   ·小结第34-35页
第四章 基于XML的信息抽取方法第35-53页
   ·方法概述第35-38页
     ·基本设计思想第35-36页
     ·XML和XSLT在平台中的角色第36-37页
     ·数据导向型页面第37-38页
   ·平台的整体框架第38-39页
   ·抽取规则第39-46页
     ·规则学习的依据第39-40页
     ·规则学习过程第40-46页
     ·信息抽取过程描述第46页
   ·抽取规则的优化第46-51页
     ·信息定位的优化方法第47-50页
     ·几种定位方法小结第50-51页
   ·小结第51-53页
第五章 结束语第53-55页
   ·总结第53页
   ·下一步工作第53-55页
致谢第55-57页
参考文献第57-61页
作者在读期间的研究成果第61页

论文共61页,点击 下载论文
上一篇:PKC-θ和P16/INK4α在胃肠道间质瘤中的表达及意义
下一篇:TNF-α、IL-6、IL-8和sICAM-1与嗜肺军团菌感染关系的研究