摘要 | 第1-20页 |
ABSTRACT | 第20-25页 |
第1章 绪论 | 第25-33页 |
·研究背景及意义 | 第25-26页 |
·Deep Web数据集成面临的问题 | 第26-28页 |
·研究目标和内容 | 第28-29页 |
·论文的贡献 | 第29-31页 |
·组织结构 | 第31-33页 |
第2章 Deep Web数据集成研究现状 | 第33-48页 |
·引言 | 第33页 |
·Deep Web数据集成 | 第33-36页 |
·Deep Web查询接口匹配 | 第36-38页 |
·Web数据库爬取 | 第38-40页 |
·Deep Web数据抽取 | 第40-43页 |
·Deep Web数据语义标注 | 第43-44页 |
·Deep Web中的重复记录检测 | 第44-47页 |
·小结 | 第47-48页 |
第3章 基于扩展证据理论的Deep Web查询接口匹配 | 第48-70页 |
·引言 | 第48-49页 |
·查询接口匹配相关定义 | 第49-51页 |
·领域查询接口的构建 | 第51-52页 |
·Deep Web查询接口匹配过程 | 第52-53页 |
·证据理论的扩展 | 第53-55页 |
·证据理论 | 第53页 |
·扩展证据理论 | 第53-55页 |
·基于扩展证据理论组合多个匹配器结果 | 第55-61页 |
·匹配器 | 第55-57页 |
·匹配器可信度预测机制 | 第57-59页 |
·匹配器精度精确度预测 | 第57-59页 |
·将匹配器精确度转化为匹配器可信度 | 第59页 |
·利用扩展证据理论组合多个匹配器结果 | 第59-61页 |
·单个匹配器结果的建模 | 第59-60页 |
·多个匹配器结果的组合 | 第60-61页 |
·匹配决策 | 第61-64页 |
·基于top-k全局最优策略的1:1匹配决策 | 第61-62页 |
·基于树结构启发规则的1:m匹配决策 | 第62-64页 |
·实验 | 第64-69页 |
·数据集 | 第64-65页 |
·评价标准 | 第65页 |
·实验结果与分析 | 第65-69页 |
·与传统的证据理论方法的对比 | 第65-66页 |
·与可信加权平均方法的对比 | 第66-67页 |
·单个匹配器与组合多个匹配器匹配性能对比 | 第67-68页 |
·与相关方法的性能对比 | 第68-69页 |
·小结 | 第69-70页 |
第4章 基于查询词采新率模型的Web数据库爬取 | 第70-86页 |
·引言 | 第70-72页 |
·Web数据库爬取相关定义 | 第72-74页 |
·基于查询词采新率模型的Web数据库爬取过程 | 第74-75页 |
·查询词采新率模型的构建 | 第75-78页 |
·属性层采样数据库获取 | 第75页 |
·训练样本的获取 | 第75-78页 |
·查询词采新率模型的学习 | 第78页 |
·利用查询词采新率模型爬取Web数据库 | 第78-80页 |
·实验 | 第80-85页 |
·数据集 | 第80-81页 |
·评价标准 | 第81页 |
·实验结果与分析 | 第81-85页 |
·利用查询词采新率模型与启发式规则进行Web数据库爬取性能对比 | 第81-82页 |
·同一领域Web数据库爬取性能分析 | 第82-83页 |
·不同采样数量性能对比 | 第83-84页 |
·不同闭值对Web数据库爬取覆盖率的影响 | 第84-85页 |
·小结 | 第85-86页 |
第5章 基于层次聚类的Deep Web数据抽取 | 第86-101页 |
·引言 | 第86-88页 |
·Deep Web数据抽取相关定义 | 第88-90页 |
·基于层次聚类的Deep Web数据抽取过程 | 第90页 |
·内容块的识别 | 第90-92页 |
·Web数据记录抽取 | 第92-96页 |
·内容特征向量相似性度量 | 第92-94页 |
·内容特征向量聚类 | 第94-96页 |
·数据元素抽取 | 第96页 |
·实验 | 第96-100页 |
·数据集 | 第97页 |
·评价标准 | 第97页 |
·实验结果与分析 | 第97-100页 |
·查询结果列表页面对Deep Web数据抽取的影响 | 第97-99页 |
·与已有数据抽取方法的对比 | 第99-100页 |
·小结 | 第100-101页 |
第6章 基于约束条件随机场的Deep Web数据语义标注 | 第101-121页 |
·引言 | 第101-102页 |
·Deep Web数据语义标注的相关定义 | 第102-103页 |
·条件随机场 | 第103-104页 |
·约束条件随机场 | 第104-112页 |
·模型定义 | 第104-105页 |
·模型训练 | 第105-106页 |
·模型推理 | 第106-112页 |
·CRF推理过程转化为最短路径问题 | 第106-107页 |
·利用整数线性规划建模最短路径问题 | 第107-108页 |
·可信约束构建及引入到整数线性规划的方法 | 第108-110页 |
·逻辑约束构建及引入到整数线性规划的方法 | 第110-112页 |
·利用约束条件随机场模型进行Deep Web数据语义标注 | 第112页 |
·实验 | 第112-120页 |
·数据集 | 第113页 |
·评价标准 | 第113-114页 |
·实验结果与分析 | 第114-120页 |
·与CRF、CRF+CC和CRF+LC的比较 | 第114-116页 |
·可信度阈值对Web数据语义标注的影响 | 第116-117页 |
·逻辑约束逐渐递增对Web数据语义标注的影响 | 第117-118页 |
·训练样本数量对模型性能的影响 | 第118-119页 |
·数据库规模对模型性能的影响 | 第119-120页 |
·小结 | 第120-121页 |
第7章 基于无监督学习的Deep Web重复记录检测 | 第121-136页 |
·引言 | 第121-122页 |
·重复记录检测相关定义 | 第122-123页 |
·基于无监督学习的Deep Web重复记录检测流程 | 第123-124页 |
·比较向量的构建 | 第124页 |
·基于聚类集成的训练样本的自动获取 | 第124-127页 |
·个体聚类器的生成 | 第125-127页 |
·个体聚类器的合成 | 第127页 |
·基于迭代SVM学习的比较向量分类 | 第127-129页 |
·基于扩展证据理论的领域重复记录检测模型的获取 | 第129-130页 |
·实验 | 第130-135页 |
·数据集 | 第130-131页 |
·评价标准 | 第131页 |
·实验结果与分析 | 第131-135页 |
·聚类集成方法与单个聚类方法获取训练样本的性能对比 #107■ | 第131-132页 |
·与相关方法的性能对比 | 第132-133页 |
·Web数据库对的数量对领域重复记录检测模型的影响 | 第133-134页 |
·领域重复记录检测模型性能分析 | 第134-135页 |
·小结 | 第135-136页 |
第8章 Deep Web数据集成原型系统 | 第136-145页 |
·引言 | 第136页 |
·整体架构 | 第136-140页 |
·原型系统工作流程 | 第140-144页 |
·整体工作流程 | 第140-141页 |
·功能服务的工作流程 | 第141-144页 |
·站点选择服务 | 第141-142页 |
·爬取服务 | 第142页 |
·大规模数据抽取服务 | 第142-143页 |
·数据整合服务 | 第143-144页 |
·小结 | 第144-145页 |
第9章 总结与展望 | 第145-147页 |
·总结 | 第145-146页 |
·展望 | 第146-147页 |
参考文献 | 第147-161页 |
致谢 | 第161-162页 |
攻读学位期间发表的学术论文目录 | 第162-165页 |
攻读学位期间参与科研项目情况 | 第165-166页 |
攻读学位期间获奖情况 | 第166-167页 |
学位论文评阅及答辩情况表 | 第167-169页 |
外文论文 | 第169-205页 |