Deep Web数据集成关键问题研究

摘要	第1-20页
ABSTRACT	第20-25页
第1章绪论	第25-33页
·研究背景及意义	第25-26页
·Deep Web数据集成面临的问题	第26-28页
·研究目标和内容	第28-29页
·论文的贡献	第29-31页
·组织结构	第31-33页
第2章 Deep Web数据集成研究现状	第33-48页
·引言	第33页
·Deep Web数据集成	第33-36页
·Deep Web查询接口匹配	第36-38页
·Web数据库爬取	第38-40页
·Deep Web数据抽取	第40-43页
·Deep Web数据语义标注	第43-44页
·Deep Web中的重复记录检测	第44-47页
·小结	第47-48页
第3章基于扩展证据理论的Deep Web查询接口匹配	第48-70页
·引言	第48-49页
·查询接口匹配相关定义	第49-51页
·领域查询接口的构建	第51-52页
·Deep Web查询接口匹配过程	第52-53页
·证据理论的扩展	第53-55页
·证据理论	第53页
·扩展证据理论	第53-55页
·基于扩展证据理论组合多个匹配器结果	第55-61页
·匹配器	第55-57页
·匹配器可信度预测机制	第57-59页
·匹配器精度精确度预测	第57-59页
·将匹配器精确度转化为匹配器可信度	第59页
·利用扩展证据理论组合多个匹配器结果	第59-61页
·单个匹配器结果的建模	第59-60页
·多个匹配器结果的组合	第60-61页
·匹配决策	第61-64页
·基于top-k全局最优策略的1:1匹配决策	第61-62页
·基于树结构启发规则的1:m匹配决策	第62-64页
·实验	第64-69页
·数据集	第64-65页
·评价标准	第65页
·实验结果与分析	第65-69页
·与传统的证据理论方法的对比	第65-66页
·与可信加权平均方法的对比	第66-67页
·单个匹配器与组合多个匹配器匹配性能对比	第67-68页
·与相关方法的性能对比	第68-69页
·小结	第69-70页
第4章基于查询词采新率模型的Web数据库爬取	第70-86页
·引言	第70-72页
·Web数据库爬取相关定义	第72-74页
·基于查询词采新率模型的Web数据库爬取过程	第74-75页
·查询词采新率模型的构建	第75-78页
·属性层采样数据库获取	第75页
·训练样本的获取	第75-78页
·查询词采新率模型的学习	第78页
·利用查询词采新率模型爬取Web数据库	第78-80页
·实验	第80-85页
·数据集	第80-81页
·评价标准	第81页
·实验结果与分析	第81-85页
·利用查询词采新率模型与启发式规则进行Web数据库爬取性能对比	第81-82页
·同一领域Web数据库爬取性能分析	第82-83页
·不同采样数量性能对比	第83-84页
·不同闭值对Web数据库爬取覆盖率的影响	第84-85页
·小结	第85-86页
第5章基于层次聚类的Deep Web数据抽取	第86-101页
·引言	第86-88页
·Deep Web数据抽取相关定义	第88-90页
·基于层次聚类的Deep Web数据抽取过程	第90页
·内容块的识别	第90-92页
·Web数据记录抽取	第92-96页
·内容特征向量相似性度量	第92-94页
·内容特征向量聚类	第94-96页
·数据元素抽取	第96页
·实验	第96-100页
·数据集	第97页
·评价标准	第97页
·实验结果与分析	第97-100页
·查询结果列表页面对Deep Web数据抽取的影响	第97-99页
·与已有数据抽取方法的对比	第99-100页
·小结	第100-101页
第6章基于约束条件随机场的Deep Web数据语义标注	第101-121页
·引言	第101-102页
·Deep Web数据语义标注的相关定义	第102-103页
·条件随机场	第103-104页
·约束条件随机场	第104-112页
·模型定义	第104-105页
·模型训练	第105-106页
·模型推理	第106-112页
·CRF推理过程转化为最短路径问题	第106-107页
·利用整数线性规划建模最短路径问题	第107-108页
·可信约束构建及引入到整数线性规划的方法	第108-110页
·逻辑约束构建及引入到整数线性规划的方法	第110-112页
·利用约束条件随机场模型进行Deep Web数据语义标注	第112页
·实验	第112-120页
·数据集	第113页
·评价标准	第113-114页
·实验结果与分析	第114-120页
·与CRF、CRF+CC和CRF+LC的比较	第114-116页
·可信度阈值对Web数据语义标注的影响	第116-117页
·逻辑约束逐渐递增对Web数据语义标注的影响	第117-118页
·训练样本数量对模型性能的影响	第118-119页
·数据库规模对模型性能的影响	第119-120页
·小结	第120-121页
第7章基于无监督学习的Deep Web重复记录检测	第121-136页
·引言	第121-122页
·重复记录检测相关定义	第122-123页
·基于无监督学习的Deep Web重复记录检测流程	第123-124页
·比较向量的构建	第124页
·基于聚类集成的训练样本的自动获取	第124-127页
·个体聚类器的生成	第125-127页
·个体聚类器的合成	第127页
·基于迭代SVM学习的比较向量分类	第127-129页
·基于扩展证据理论的领域重复记录检测模型的获取	第129-130页
·实验	第130-135页
·数据集	第130-131页
·评价标准	第131页
·实验结果与分析	第131-135页
·聚类集成方法与单个聚类方法获取训练样本的性能对比 #107■	第131-132页
·与相关方法的性能对比	第132-133页
·Web数据库对的数量对领域重复记录检测模型的影响	第133-134页
·领域重复记录检测模型性能分析	第134-135页
·小结	第135-136页
第8章 Deep Web数据集成原型系统	第136-145页
·引言	第136页
·整体架构	第136-140页
·原型系统工作流程	第140-144页
·整体工作流程	第140-141页
·功能服务的工作流程	第141-144页
·站点选择服务	第141-142页
·爬取服务	第142页
·大规模数据抽取服务	第142-143页
·数据整合服务	第143-144页
·小结	第144-145页
第9章总结与展望	第145-147页
·总结	第145-146页
·展望	第146-147页
参考文献	第147-161页
致谢	第161-162页
攻读学位期间发表的学术论文目录	第162-165页
攻读学位期间参与科研项目情况	第165-166页
攻读学位期间获奖情况	第166-167页
学位论文评阅及答辩情况表	第167-169页
外文论文	第169-205页