| 摘要 | 第1-20页 |
| ABSTRACT | 第20-25页 |
| 第1章 绪论 | 第25-33页 |
| ·研究背景及意义 | 第25-26页 |
| ·Deep Web数据集成面临的问题 | 第26-28页 |
| ·研究目标和内容 | 第28-29页 |
| ·论文的贡献 | 第29-31页 |
| ·组织结构 | 第31-33页 |
| 第2章 Deep Web数据集成研究现状 | 第33-48页 |
| ·引言 | 第33页 |
| ·Deep Web数据集成 | 第33-36页 |
| ·Deep Web查询接口匹配 | 第36-38页 |
| ·Web数据库爬取 | 第38-40页 |
| ·Deep Web数据抽取 | 第40-43页 |
| ·Deep Web数据语义标注 | 第43-44页 |
| ·Deep Web中的重复记录检测 | 第44-47页 |
| ·小结 | 第47-48页 |
| 第3章 基于扩展证据理论的Deep Web查询接口匹配 | 第48-70页 |
| ·引言 | 第48-49页 |
| ·查询接口匹配相关定义 | 第49-51页 |
| ·领域查询接口的构建 | 第51-52页 |
| ·Deep Web查询接口匹配过程 | 第52-53页 |
| ·证据理论的扩展 | 第53-55页 |
| ·证据理论 | 第53页 |
| ·扩展证据理论 | 第53-55页 |
| ·基于扩展证据理论组合多个匹配器结果 | 第55-61页 |
| ·匹配器 | 第55-57页 |
| ·匹配器可信度预测机制 | 第57-59页 |
| ·匹配器精度精确度预测 | 第57-59页 |
| ·将匹配器精确度转化为匹配器可信度 | 第59页 |
| ·利用扩展证据理论组合多个匹配器结果 | 第59-61页 |
| ·单个匹配器结果的建模 | 第59-60页 |
| ·多个匹配器结果的组合 | 第60-61页 |
| ·匹配决策 | 第61-64页 |
| ·基于top-k全局最优策略的1:1匹配决策 | 第61-62页 |
| ·基于树结构启发规则的1:m匹配决策 | 第62-64页 |
| ·实验 | 第64-69页 |
| ·数据集 | 第64-65页 |
| ·评价标准 | 第65页 |
| ·实验结果与分析 | 第65-69页 |
| ·与传统的证据理论方法的对比 | 第65-66页 |
| ·与可信加权平均方法的对比 | 第66-67页 |
| ·单个匹配器与组合多个匹配器匹配性能对比 | 第67-68页 |
| ·与相关方法的性能对比 | 第68-69页 |
| ·小结 | 第69-70页 |
| 第4章 基于查询词采新率模型的Web数据库爬取 | 第70-86页 |
| ·引言 | 第70-72页 |
| ·Web数据库爬取相关定义 | 第72-74页 |
| ·基于查询词采新率模型的Web数据库爬取过程 | 第74-75页 |
| ·查询词采新率模型的构建 | 第75-78页 |
| ·属性层采样数据库获取 | 第75页 |
| ·训练样本的获取 | 第75-78页 |
| ·查询词采新率模型的学习 | 第78页 |
| ·利用查询词采新率模型爬取Web数据库 | 第78-80页 |
| ·实验 | 第80-85页 |
| ·数据集 | 第80-81页 |
| ·评价标准 | 第81页 |
| ·实验结果与分析 | 第81-85页 |
| ·利用查询词采新率模型与启发式规则进行Web数据库爬取性能对比 | 第81-82页 |
| ·同一领域Web数据库爬取性能分析 | 第82-83页 |
| ·不同采样数量性能对比 | 第83-84页 |
| ·不同闭值对Web数据库爬取覆盖率的影响 | 第84-85页 |
| ·小结 | 第85-86页 |
| 第5章 基于层次聚类的Deep Web数据抽取 | 第86-101页 |
| ·引言 | 第86-88页 |
| ·Deep Web数据抽取相关定义 | 第88-90页 |
| ·基于层次聚类的Deep Web数据抽取过程 | 第90页 |
| ·内容块的识别 | 第90-92页 |
| ·Web数据记录抽取 | 第92-96页 |
| ·内容特征向量相似性度量 | 第92-94页 |
| ·内容特征向量聚类 | 第94-96页 |
| ·数据元素抽取 | 第96页 |
| ·实验 | 第96-100页 |
| ·数据集 | 第97页 |
| ·评价标准 | 第97页 |
| ·实验结果与分析 | 第97-100页 |
| ·查询结果列表页面对Deep Web数据抽取的影响 | 第97-99页 |
| ·与已有数据抽取方法的对比 | 第99-100页 |
| ·小结 | 第100-101页 |
| 第6章 基于约束条件随机场的Deep Web数据语义标注 | 第101-121页 |
| ·引言 | 第101-102页 |
| ·Deep Web数据语义标注的相关定义 | 第102-103页 |
| ·条件随机场 | 第103-104页 |
| ·约束条件随机场 | 第104-112页 |
| ·模型定义 | 第104-105页 |
| ·模型训练 | 第105-106页 |
| ·模型推理 | 第106-112页 |
| ·CRF推理过程转化为最短路径问题 | 第106-107页 |
| ·利用整数线性规划建模最短路径问题 | 第107-108页 |
| ·可信约束构建及引入到整数线性规划的方法 | 第108-110页 |
| ·逻辑约束构建及引入到整数线性规划的方法 | 第110-112页 |
| ·利用约束条件随机场模型进行Deep Web数据语义标注 | 第112页 |
| ·实验 | 第112-120页 |
| ·数据集 | 第113页 |
| ·评价标准 | 第113-114页 |
| ·实验结果与分析 | 第114-120页 |
| ·与CRF、CRF+CC和CRF+LC的比较 | 第114-116页 |
| ·可信度阈值对Web数据语义标注的影响 | 第116-117页 |
| ·逻辑约束逐渐递增对Web数据语义标注的影响 | 第117-118页 |
| ·训练样本数量对模型性能的影响 | 第118-119页 |
| ·数据库规模对模型性能的影响 | 第119-120页 |
| ·小结 | 第120-121页 |
| 第7章 基于无监督学习的Deep Web重复记录检测 | 第121-136页 |
| ·引言 | 第121-122页 |
| ·重复记录检测相关定义 | 第122-123页 |
| ·基于无监督学习的Deep Web重复记录检测流程 | 第123-124页 |
| ·比较向量的构建 | 第124页 |
| ·基于聚类集成的训练样本的自动获取 | 第124-127页 |
| ·个体聚类器的生成 | 第125-127页 |
| ·个体聚类器的合成 | 第127页 |
| ·基于迭代SVM学习的比较向量分类 | 第127-129页 |
| ·基于扩展证据理论的领域重复记录检测模型的获取 | 第129-130页 |
| ·实验 | 第130-135页 |
| ·数据集 | 第130-131页 |
| ·评价标准 | 第131页 |
| ·实验结果与分析 | 第131-135页 |
| ·聚类集成方法与单个聚类方法获取训练样本的性能对比 #107■ | 第131-132页 |
| ·与相关方法的性能对比 | 第132-133页 |
| ·Web数据库对的数量对领域重复记录检测模型的影响 | 第133-134页 |
| ·领域重复记录检测模型性能分析 | 第134-135页 |
| ·小结 | 第135-136页 |
| 第8章 Deep Web数据集成原型系统 | 第136-145页 |
| ·引言 | 第136页 |
| ·整体架构 | 第136-140页 |
| ·原型系统工作流程 | 第140-144页 |
| ·整体工作流程 | 第140-141页 |
| ·功能服务的工作流程 | 第141-144页 |
| ·站点选择服务 | 第141-142页 |
| ·爬取服务 | 第142页 |
| ·大规模数据抽取服务 | 第142-143页 |
| ·数据整合服务 | 第143-144页 |
| ·小结 | 第144-145页 |
| 第9章 总结与展望 | 第145-147页 |
| ·总结 | 第145-146页 |
| ·展望 | 第146-147页 |
| 参考文献 | 第147-161页 |
| 致谢 | 第161-162页 |
| 攻读学位期间发表的学术论文目录 | 第162-165页 |
| 攻读学位期间参与科研项目情况 | 第165-166页 |
| 攻读学位期间获奖情况 | 第166-167页 |
| 学位论文评阅及答辩情况表 | 第167-169页 |
| 外文论文 | 第169-205页 |