数据万维网自动实体匹配
摘要 | 第5-6页 |
ABSTRACT | 第6页 |
1 引言 | 第11-19页 |
1.1 数据万维网简介 | 第11-14页 |
1.2 实体匹配问题的提出 | 第14-17页 |
1.3 我们的实体匹配解决方案 | 第17-18页 |
1.4 本章小结 | 第18-19页 |
2 国内外研究现状 | 第19-25页 |
2.1 数据库领域的相关工作 | 第19-22页 |
2.2 语义万维网领域的相关工作 | 第22-23页 |
2.3 面向实体匹配的数据分块方法 | 第23-24页 |
2.4 实体匹配的评测标准 | 第24页 |
2.5 本章小结 | 第24-25页 |
3 解决方案概述 | 第25-29页 |
3.1 问题定义 | 第25-27页 |
3.2 方案设计中的取舍 | 第27-28页 |
3.2.1 选取实体特征时的取舍 | 第27页 |
3.2.2 原始数据预处理中的取舍 | 第27页 |
3.2.3 分块阶段的取舍 | 第27-28页 |
3.2.4 聚类阶段的取舍 | 第28页 |
3.3 本章小结 | 第28-29页 |
4 实体特征选取 | 第29-32页 |
4.1 基本特征和扩展特征 | 第29-30页 |
4.2 采用基本特征的原因 | 第30-31页 |
4.3 本章小结 | 第31-32页 |
5 原始数据预处理 | 第32-36页 |
5.1 统一数据文件格式 | 第32-33页 |
5.2 清理数据中的垃圾 | 第33页 |
5.3 收集实体相关信息 | 第33-34页 |
5.4 针对特定数据集的操作 | 第34-35页 |
5.5 本章小结 | 第35-36页 |
6 实体集分块 | 第36-39页 |
6.1 传统方法的问题 | 第36-37页 |
6.2 我们的分块方法 | 第37-38页 |
6.3 本章小结 | 第38-39页 |
7 分块内的实体聚类 | 第39-43页 |
7.1 传统聚类方法的问题 | 第39-40页 |
7.2 我们采用的聚类方法 | 第40-42页 |
7.3 我们方法的问题以及如何克服 | 第42页 |
7.4 本章小结 | 第42-43页 |
8 实验与讨论 | 第43-60页 |
8.1 实验数据集介绍 | 第43-44页 |
8.2 实体匹配效果评测方案 | 第44-45页 |
8.3 分块阶段评测结果 | 第45-51页 |
8.3.1 可扩展性评测结果 | 第45-46页 |
8.3.2 分块大小评测结果 | 第46-50页 |
8.3.3 有效性评测结果 | 第50-51页 |
8.4 聚类阶段评测结果 | 第51-55页 |
8.4.1 可扩展性评测结果 | 第51-53页 |
8.4.2 有效性评测结果 | 第53-55页 |
8.5 观察与讨论 | 第55-59页 |
8.6 本章小结 | 第59-60页 |
9 总结与展望 | 第60-61页 |
参考文献 | 第61-66页 |
致谢 | 第66-67页 |
攻读学位期间发表的学术论文 | 第67-68页 |
攻读学位期间参加的科研项目 | 第68-69页 |
攻读学位期间出席的学术会议 | 第69-72页 |