首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

面向Deep Web的数据抽取与语义标注技术研究

中文摘要第1-5页
Abstract第5-10页
第1章 绪论第10-16页
   ·研究背景第10-12页
   ·研究目的第12-14页
   ·特点与贡献第14页
   ·论文结构安排第14-16页
第2章 Web 信息抽取概述第16-25页
   ·Web 信息抽取的发展历程第16-17页
   ·Web 信息抽取方法分类第17-21页
   ·典型的Web 抽取系统介绍第21-24页
   ·Web 信息抽取的评价标准第24页
   ·本章小结第24-25页
第3章 查询结果页的Web 对象抽取第25-37页
   ·问题的提出第25-27页
   ·基本思路第27-28页
   ·系统流程架构第28-29页
   ·相关技术介绍第29-36页
     ·HTML第29-30页
     ·XHTML第30-31页
     ·DOM 模型第31-33页
     ·HTML 标签树匹配技术第33-36页
   ·本章小结第36-37页
第4章 数据区域定位和数据记录抽取第37-54页
   ·Web 文档的预处理第37-40页
     ·Web 文档的预处理流程第37页
     ·清洗HTML 文档第37-40页
     ·XHTML 页面的解析第40页
   ·数据区域定位第40-43页
     ·查询结果页面的布局特征分析第40-41页
     ·基于页面布局的数据区域定位算法第41-43页
   ·数据记录的抽取第43-51页
     ·数据区域中的噪声信息过滤第43-44页
     ·查询结果页面的生成模型第44-45页
     ·基于聚类的连续相似节点组的挖掘第45-49页
     ·数据记录的抽取第49-51页
   ·数据记录抽取实验第51-53页
     ·实验描述第51页
     ·实验评价第51页
     ·实验结果第51-53页
   ·本章小结第53-54页
第5章 数据项的对齐与语义标注第54-67页
   ·基本概念第54-56页
     ·问题的引出第54-55页
     ·语义标注的任务及评价准则第55-56页
   ·研究现状第56-57页
   ·研究思路第57-58页
   ·领域实体属性的确定第58-60页
     ·查询接口与查询结果页面的观察现象第58-59页
     ·领域实体属性的确定第59-60页
   ·基于最大熵模型的语义标注第60-64页
     ·最大熵原理第60-61页
     ·最大熵模型中的特征选择第61-64页
     ·模型的训练学习第64页
   ·语义标注实验第64-66页
     ·实验数据集第64-65页
     ·实验结果与分析第65-66页
   ·本章小结第66-67页
第6章 总结与展望第67-69页
   ·工作总结第67页
   ·论文的创新点第67-68页
   ·工作展望第68-69页
参考文献第69-75页
攻读学位期间公开发表的论文和参加科研情况第75-76页
致谢第76-77页

论文共77页,点击 下载论文
上一篇:面向太湖流域的烟雾和云的模拟
下一篇:指代消解中待消解项识别研究