摘要 | 第1-18页 |
ABSTRACT | 第18-21页 |
第1章 绪论 | 第21-28页 |
·研究背景及意义 | 第21-22页 |
·面临的问题 | 第22-24页 |
·研究目标和内容 | 第24-25页 |
·论文的贡献 | 第25-27页 |
·组织结构 | 第27-28页 |
第2章 相关研究 | 第28-40页 |
·模式匹配 | 第28-32页 |
·Deep Web中的模式匹配技术 | 第28-29页 |
·模式匹配的不确定性 | 第29-32页 |
·查询接口的集成 | 第32-33页 |
·在集成接口上的查询转换 | 第33-34页 |
·Deep Web接口间的查询转换 | 第33-34页 |
·查询转换的不确定性 | 第34页 |
·重复记录的处理 | 第34-36页 |
·Deep Web中重复记录处理的研究 | 第34-35页 |
·重复记录处理的不确定性 | 第35-36页 |
·基于用户偏好的查询 | 第36-39页 |
·转化为单目标优化问题的方法——采用得分函数的top-k技术 | 第36-38页 |
·多目标优化的方法——skyline技术 | 第38-39页 |
·小结 | 第39-40页 |
第3章 接口集成与概率接口的映射 | 第40-65页 |
·引言 | 第40-41页 |
·工作过程 | 第41-42页 |
·多集成接口与接口的概率映射的定义 | 第42-45页 |
·问题提出 | 第42-44页 |
·多集成接口与接口的概率映射的相关定义 | 第44-45页 |
·集成接口中属性集的生成 | 第45-54页 |
·属性间相似度的计算 | 第46-49页 |
·语法上相似性的计算 | 第46页 |
·值域相似性的计算 | 第46-48页 |
·语义相似性的计算 | 第48-49页 |
·集成接口上属性集的生成 | 第49-54页 |
·利用聚类集成生成属性集的过程 | 第49-50页 |
·用于生成待集成的聚类成员的聚类算法 | 第50-51页 |
·共识矩阵的建立 | 第51-53页 |
·利用聚类集成生成单一集成接口属性集的算法 | 第53-54页 |
·集成接口中属性集其他特征的确定 | 第54页 |
·接口上的概率映射 | 第54-58页 |
·属性间匹配概率的计算 | 第54-56页 |
·映射组合选择 | 第56-58页 |
·Top-k个映射组合的选择 | 第56-58页 |
·对映射组合计算概率值 | 第58页 |
·实验 | 第58-65页 |
·数据集 | 第58-59页 |
·接口集成方法的性能评估 | 第59-61页 |
·本文接口集成的方法与已有方法的比较 | 第61页 |
·形成概率映射的算法的性能评估 | 第61-63页 |
·概率映射的方法与已有方法的比较 | 第63-65页 |
第4章 基于概率映射的查询处理 | 第65-88页 |
·引言 | 第65-66页 |
·工作过程 | 第66-67页 |
·Deep Web中基于概率映射的查询语义 | 第67-69页 |
·Deep Web集成中概率映射下查询的语义 | 第67-69页 |
·概率映射下查询结果求解算法 | 第69页 |
·查询转换的问题定义 | 第69-74页 |
·查询转换问题 | 第69-71页 |
·与查询有关的接口属性特征 | 第71-72页 |
·查询转换的定义 | 第72-74页 |
·谓词映射的实现 | 第74-80页 |
·物化方法求解最小包含的谓词映射的过程 | 第74-76页 |
·最小包含的谓词映射求解算法 | 第76-78页 |
·谓词物化结果的计算 | 第78-80页 |
·文本型的处理 | 第78-79页 |
·数值型和日期型的处理 | 第79-80页 |
·查询重写的实现 | 第80-83页 |
·查询重写的原则 | 第80-81页 |
·查询重写算法 | 第81-83页 |
·实验 | 第83-88页 |
·数据集 | 第83页 |
·谓词映射生成算法与已有算法在准确性和完整性上的比较 | 第83-85页 |
·谓词映射生成和查询转换算法与已有算法在运行效率上的比较 | 第85-86页 |
·基于概率映射,在局部接口上形成查询的性能评估 | 第86-88页 |
第5章 具有隶属模糊性的重复记录处理 | 第88-141页 |
·引言 | 第88-90页 |
·重复记录处理的概率数据生成过程 | 第90-93页 |
·重复记录处理的概率数据定义 | 第90-91页 |
·生成过程 | 第91-93页 |
·记录间相似度的计算 | 第93-95页 |
·计算记录相似度时概率因子的处理 | 第93-94页 |
·数据字段上的比较方法 | 第94-95页 |
·对重复数据的聚类构建重复可能集 | 第95-103页 |
·大规模数据下的分块 | 第95-97页 |
·分块中的聚类过程 | 第97-99页 |
·聚类准确性的保证 | 第99-102页 |
·聚类中元素概率的计算 | 第102-103页 |
·实验 | 第103-109页 |
·数据集 | 第103页 |
·大规模数据集上采用分块算法前后的性能评估 | 第103-105页 |
·分块算法中参数对算法的影响 | 第105页 |
·本文所用聚类算法与已有聚类算法的性能比较 | 第105-106页 |
·本文所用聚类算法与已有聚类算法运行时间的比较 | 第106-107页 |
·概率分配算法与已有方法的性能比较 | 第107-109页 |
第6章 具有概率的重复记录集上基于用户偏好的查询 | 第109-141页 |
·引言 | 第109-111页 |
·不确定数据集上的Top-K查询 | 第111-113页 |
·可能世界的定义 | 第111-112页 |
·不确定数据上的Top-k查询的定义 | 第112-113页 |
·不确定数据集上单目标优化的Top-k算法 | 第113-126页 |
·Global-Topk查询语义 | 第113-114页 |
·不确定的实体包含单一可能的实例情况下的Global-Topk求解 | 第114-117页 |
·状态的概率 | 第114-116页 |
·简化模型下的Global-Topk求解算法 | 第116-117页 |
·不确定的实体包含非单一可能的实例情况下的Global-Topk求解 | 第117-122页 |
·简化模型下的Global-Topk求解算法 | 第117-121页 |
·Top-k个Global-Topk概率值求解算法 | 第121页 |
·不确定的实体中部分可能的实例的选择 | 第121-122页 |
·实验 | 第122-126页 |
·数据集及用于比较的算法 | 第123页 |
·与已有算法在数据规模及不确定实体内可能实例个数两因素的比较 | 第123-125页 |
·与已有算法在k值的影响的比较 | 第125-126页 |
·不确定性数据集上多目标优化的Top-k skyline算法 | 第126-141页 |
·不确定数据集上的skyline基本定义 | 第126-128页 |
·Top-k个skyline概率求解策略 | 第128-135页 |
·利用MinSky策略进行过滤和修剪 | 第129-133页 |
·利用MaxSky策略寻找阈值 | 第133-135页 |
·Top-k个skyline概率求解算法描述 | 第135-137页 |
·实验 | 第137-141页 |
·数据集与用于比较的算法 | 第137-138页 |
·与已有算法在运行效率的比较 | 第138页 |
·与已有方法在修剪能力的比较 | 第138-139页 |
·与已有算法在top-k中k的个数因素的比较 | 第139-140页 |
·与已有算法在维度因素的比较 | 第140-141页 |
第7章 总结与展望 | 第141-143页 |
·总结 | 第141-142页 |
·展望 | 第142-143页 |
参考文献 | 第143-158页 |
致谢 | 第158-160页 |
攻读学位期间发表的学术论文目录 | 第160-162页 |
攻读学位期间参与科研项目情况 | 第162-163页 |
攻读学位期间获奖情况 | 第163-165页 |
学位论文评阅及答辩情况表 | 第165-167页 |
外文论文 | 第167-187页 |