首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于条件概率图模型的Deep Web数据抽取与集成研究

摘要第1-6页
ABSTRACT第6-8页
目录第8-11页
第一章 绪论第11-32页
   ·研究背景和意义第11-15页
   ·Deep Web数据抽取与集成的研究进展与现状第15-23页
   ·条件概率图学习模型及其在信息抽取中的应用第23-30页
   ·本文的研究内容与章节安排第30-32页
第二章 基于导航路径学习的领域Deep Web查询接口发现第32-51页
   ·引言第32-33页
   ·Deep Web查询表单聚焦爬行系统第33-40页
     ·万维网的网站链接图模型第33-36页
     ·QFormCollector的系统结构第36-39页
     ·站间超链接搜索的实现第39-40页
   ·基于序列超链接评价的网站内查询接口发现第40-44页
     ·目标网页导航路径的概率图学习模型第40-41页
     ·状态累计回报函数第41-42页
     ·超链接评分函数第42-43页
     ·网页爬行算法第43-44页
   ·实验结果与分析第44-50页
     ·系统运行效果图第44-45页
     ·测试环境和使用的数据集第45-46页
     ·表单爬虫的性能测试第46-48页
     ·并行爬虫的效率测试第48-50页
   ·小结第50-51页
第三章 多特征融合的Deep Web查询表单分类第51-64页
   ·引言第51-53页
   ·Deep Web查询表单识别第53-56页
   ·查询表单的领域分类第56-57页
   ·实验结果与分析第57-63页
     ·测试数据集第57-59页
     ·评价指标第59页
     ·查询表单识别结果第59-61页
     ·查询表单的领域分类结果第61-63页
   ·小结第63-64页
第四章 异构领域Web查询接口模式匹配第64-80页
   ·引言第64-66页
   ·Web查询接口的抽取与表示第66-72页
     ·查询接口的定义第66-69页
     ·查询接口的抽取第69-70页
     ·查询接口的理解第70-72页
   ·基于层次序列条件随机场的异构Web查询接口模式匹配第72-75页
     ·层次序列条件随机场模型第72-73页
     ·模型的参数训练第73-74页
     ·基于联合树的参数估计和推理第74-75页
   ·实验结果与分析第75-79页
     ·测试数据集第75页
     ·评价指标第75-76页
     ·实验结果第76-79页
   ·小结第79-80页
第五章 查询结果网页中Web记录的抽取与语义标注第80-104页
   ·引言第80-83页
   ·Web网页分割与动态数据区域的识别第83-90页
     ·HTML网页的语法解析第83-84页
     ·网页的区域分割第84-87页
     ·动态数据区域的识别第87-90页
   ·基于混合跳链条件随机场的Web记录联合抽取和语义标注第90-98页
     ·混合跳链条件随机场模型第91-94页
     ·模型训练和推理过程第94-97页
     ·语义标注算法第97-98页
   ·实验结果与分析第98-103页
     ·数据区域识别算法评价第98页
     ·语义标注模型性能评价第98-103页
   ·小结第103-104页
第六章 多源重复Web记录检测第104-115页
   ·引言第104-106页
   ·条件训练字符串编辑距离第106-108页
     ·字符串编辑比对条件随机场模型第106-107页
     ·模型参数估计方法第107-108页
   ·合并多字段相似度的自适应重复Web记录检测第108-109页
   ·实验结果与分析第109-114页
     ·实验数据集第109-110页
     ·字符串编辑距离模型的测试结果第110-111页
     ·合并多字段重复记录检测的实验结果第111-114页
   ·小结第114-115页
结束语第115-117页
致谢第117-119页
参考文献第119-129页
攻读博士学位期间的研究成果第129页

论文共129页,点击 下载论文
上一篇:急性早幼粒细胞性白血病并发弥散性血管内凝血中凝血及纤溶指标相关性探讨
下一篇:腺苷和左旋精氨酸对大鼠心肌缺血—再灌注损伤协同保护作用的研究