| 摘要 | 第1-18页 |
| ABSTRACT | 第18-21页 |
| 第1章 绪论 | 第21-28页 |
| ·研究背景及意义 | 第21-22页 |
| ·面临的问题 | 第22-24页 |
| ·研究目标和内容 | 第24-25页 |
| ·论文的贡献 | 第25-27页 |
| ·组织结构 | 第27-28页 |
| 第2章 相关研究 | 第28-40页 |
| ·模式匹配 | 第28-32页 |
| ·Deep Web中的模式匹配技术 | 第28-29页 |
| ·模式匹配的不确定性 | 第29-32页 |
| ·查询接口的集成 | 第32-33页 |
| ·在集成接口上的查询转换 | 第33-34页 |
| ·Deep Web接口间的查询转换 | 第33-34页 |
| ·查询转换的不确定性 | 第34页 |
| ·重复记录的处理 | 第34-36页 |
| ·Deep Web中重复记录处理的研究 | 第34-35页 |
| ·重复记录处理的不确定性 | 第35-36页 |
| ·基于用户偏好的查询 | 第36-39页 |
| ·转化为单目标优化问题的方法——采用得分函数的top-k技术 | 第36-38页 |
| ·多目标优化的方法——skyline技术 | 第38-39页 |
| ·小结 | 第39-40页 |
| 第3章 接口集成与概率接口的映射 | 第40-65页 |
| ·引言 | 第40-41页 |
| ·工作过程 | 第41-42页 |
| ·多集成接口与接口的概率映射的定义 | 第42-45页 |
| ·问题提出 | 第42-44页 |
| ·多集成接口与接口的概率映射的相关定义 | 第44-45页 |
| ·集成接口中属性集的生成 | 第45-54页 |
| ·属性间相似度的计算 | 第46-49页 |
| ·语法上相似性的计算 | 第46页 |
| ·值域相似性的计算 | 第46-48页 |
| ·语义相似性的计算 | 第48-49页 |
| ·集成接口上属性集的生成 | 第49-54页 |
| ·利用聚类集成生成属性集的过程 | 第49-50页 |
| ·用于生成待集成的聚类成员的聚类算法 | 第50-51页 |
| ·共识矩阵的建立 | 第51-53页 |
| ·利用聚类集成生成单一集成接口属性集的算法 | 第53-54页 |
| ·集成接口中属性集其他特征的确定 | 第54页 |
| ·接口上的概率映射 | 第54-58页 |
| ·属性间匹配概率的计算 | 第54-56页 |
| ·映射组合选择 | 第56-58页 |
| ·Top-k个映射组合的选择 | 第56-58页 |
| ·对映射组合计算概率值 | 第58页 |
| ·实验 | 第58-65页 |
| ·数据集 | 第58-59页 |
| ·接口集成方法的性能评估 | 第59-61页 |
| ·本文接口集成的方法与已有方法的比较 | 第61页 |
| ·形成概率映射的算法的性能评估 | 第61-63页 |
| ·概率映射的方法与已有方法的比较 | 第63-65页 |
| 第4章 基于概率映射的查询处理 | 第65-88页 |
| ·引言 | 第65-66页 |
| ·工作过程 | 第66-67页 |
| ·Deep Web中基于概率映射的查询语义 | 第67-69页 |
| ·Deep Web集成中概率映射下查询的语义 | 第67-69页 |
| ·概率映射下查询结果求解算法 | 第69页 |
| ·查询转换的问题定义 | 第69-74页 |
| ·查询转换问题 | 第69-71页 |
| ·与查询有关的接口属性特征 | 第71-72页 |
| ·查询转换的定义 | 第72-74页 |
| ·谓词映射的实现 | 第74-80页 |
| ·物化方法求解最小包含的谓词映射的过程 | 第74-76页 |
| ·最小包含的谓词映射求解算法 | 第76-78页 |
| ·谓词物化结果的计算 | 第78-80页 |
| ·文本型的处理 | 第78-79页 |
| ·数值型和日期型的处理 | 第79-80页 |
| ·查询重写的实现 | 第80-83页 |
| ·查询重写的原则 | 第80-81页 |
| ·查询重写算法 | 第81-83页 |
| ·实验 | 第83-88页 |
| ·数据集 | 第83页 |
| ·谓词映射生成算法与已有算法在准确性和完整性上的比较 | 第83-85页 |
| ·谓词映射生成和查询转换算法与已有算法在运行效率上的比较 | 第85-86页 |
| ·基于概率映射,在局部接口上形成查询的性能评估 | 第86-88页 |
| 第5章 具有隶属模糊性的重复记录处理 | 第88-141页 |
| ·引言 | 第88-90页 |
| ·重复记录处理的概率数据生成过程 | 第90-93页 |
| ·重复记录处理的概率数据定义 | 第90-91页 |
| ·生成过程 | 第91-93页 |
| ·记录间相似度的计算 | 第93-95页 |
| ·计算记录相似度时概率因子的处理 | 第93-94页 |
| ·数据字段上的比较方法 | 第94-95页 |
| ·对重复数据的聚类构建重复可能集 | 第95-103页 |
| ·大规模数据下的分块 | 第95-97页 |
| ·分块中的聚类过程 | 第97-99页 |
| ·聚类准确性的保证 | 第99-102页 |
| ·聚类中元素概率的计算 | 第102-103页 |
| ·实验 | 第103-109页 |
| ·数据集 | 第103页 |
| ·大规模数据集上采用分块算法前后的性能评估 | 第103-105页 |
| ·分块算法中参数对算法的影响 | 第105页 |
| ·本文所用聚类算法与已有聚类算法的性能比较 | 第105-106页 |
| ·本文所用聚类算法与已有聚类算法运行时间的比较 | 第106-107页 |
| ·概率分配算法与已有方法的性能比较 | 第107-109页 |
| 第6章 具有概率的重复记录集上基于用户偏好的查询 | 第109-141页 |
| ·引言 | 第109-111页 |
| ·不确定数据集上的Top-K查询 | 第111-113页 |
| ·可能世界的定义 | 第111-112页 |
| ·不确定数据上的Top-k查询的定义 | 第112-113页 |
| ·不确定数据集上单目标优化的Top-k算法 | 第113-126页 |
| ·Global-Topk查询语义 | 第113-114页 |
| ·不确定的实体包含单一可能的实例情况下的Global-Topk求解 | 第114-117页 |
| ·状态的概率 | 第114-116页 |
| ·简化模型下的Global-Topk求解算法 | 第116-117页 |
| ·不确定的实体包含非单一可能的实例情况下的Global-Topk求解 | 第117-122页 |
| ·简化模型下的Global-Topk求解算法 | 第117-121页 |
| ·Top-k个Global-Topk概率值求解算法 | 第121页 |
| ·不确定的实体中部分可能的实例的选择 | 第121-122页 |
| ·实验 | 第122-126页 |
| ·数据集及用于比较的算法 | 第123页 |
| ·与已有算法在数据规模及不确定实体内可能实例个数两因素的比较 | 第123-125页 |
| ·与已有算法在k值的影响的比较 | 第125-126页 |
| ·不确定性数据集上多目标优化的Top-k skyline算法 | 第126-141页 |
| ·不确定数据集上的skyline基本定义 | 第126-128页 |
| ·Top-k个skyline概率求解策略 | 第128-135页 |
| ·利用MinSky策略进行过滤和修剪 | 第129-133页 |
| ·利用MaxSky策略寻找阈值 | 第133-135页 |
| ·Top-k个skyline概率求解算法描述 | 第135-137页 |
| ·实验 | 第137-141页 |
| ·数据集与用于比较的算法 | 第137-138页 |
| ·与已有算法在运行效率的比较 | 第138页 |
| ·与已有方法在修剪能力的比较 | 第138-139页 |
| ·与已有算法在top-k中k的个数因素的比较 | 第139-140页 |
| ·与已有算法在维度因素的比较 | 第140-141页 |
| 第7章 总结与展望 | 第141-143页 |
| ·总结 | 第141-142页 |
| ·展望 | 第142-143页 |
| 参考文献 | 第143-158页 |
| 致谢 | 第158-160页 |
| 攻读学位期间发表的学术论文目录 | 第160-162页 |
| 攻读学位期间参与科研项目情况 | 第162-163页 |
| 攻读学位期间获奖情况 | 第163-165页 |
| 学位论文评阅及答辩情况表 | 第165-167页 |
| 外文论文 | 第167-187页 |