分布式大数据一致性管理关键技术研究
| 摘要 | 第4-6页 |
| ABSTRACT | 第6-8页 |
| 1 绪论 | 第13-23页 |
| 1.1 课题的研究背景和意义 | 第13-15页 |
| 1.2 课题研究现状 | 第15-19页 |
| 1.2.1 数据质量研究现状 | 第15-16页 |
| 1.2.2 大数据质量相关研究 | 第16-17页 |
| 1.2.3 约束规则发现 | 第17-18页 |
| 1.2.4 不一致性检测 | 第18-19页 |
| 1.3 本文的主要工作 | 第19-20页 |
| 1.4 本文的内容安排 | 第20-23页 |
| 2 分布式水平切分大数据函数依赖发现 | 第23-41页 |
| 2.1 引言 | 第23-25页 |
| 2.2 FD发现及关系数据切分 | 第25-26页 |
| 2.2.1 FD发现 | 第25页 |
| 2.2.2 划分 | 第25页 |
| 2.2.3 关系数据水平切分 | 第25-26页 |
| 2.3 候选FD搜索和剪枝 | 第26-28页 |
| 2.3.1 搜索策略 | 第26页 |
| 2.3.2 剪枝策略 | 第26-28页 |
| 2.4 分布式大数据函数依赖发现 | 第28-36页 |
| 2.4.1 集中式发现算法 | 第28-29页 |
| 2.4.2 分布式并行FD发现算法 | 第29-36页 |
| 2.5 实验结果与分析 | 第36-39页 |
| 2.5.1 实验设置 | 第36-37页 |
| 2.5.2 实验结果分析 | 第37-39页 |
| 2.6 本章小结 | 第39-41页 |
| 3 分布式垂直切分大数据函数依赖发现 | 第41-57页 |
| 3.1 引言 | 第41-43页 |
| 3.2 最小函数依赖及关系数据垂直切分 | 第43-44页 |
| 3.2.1 最小函数依赖 | 第43页 |
| 3.2.2 精炼划分 | 第43-44页 |
| 3.2.3 关系数据垂直切分 | 第44页 |
| 3.3 搜索和剪枝策略 | 第44-47页 |
| 3.3.1 搜索策略 | 第44-45页 |
| 3.3.2 剪枝策略 | 第45-47页 |
| 3.4 代价模型和最优化问题 | 第47-49页 |
| 3.4.1 响应时间代价模型 | 第47-48页 |
| 3.4.2 任务分配的最优化问题 | 第48-49页 |
| 3.5 函数依赖发现方法 | 第49-53页 |
| 3.5.1 方法Cet | 第49页 |
| 3.5.2 方法DFDD | 第49-53页 |
| 3.6 实验结果与分析 | 第53-55页 |
| 3.6.1 实验设置 | 第53页 |
| 3.6.2 结果分析 | 第53-55页 |
| 3.7 本章小结 | 第55-57页 |
| 4 分布式大数据近似函数依赖发现 | 第57-75页 |
| 4.1 引言 | 第57-60页 |
| 4.2 近似函数依赖发现相关定义 | 第60页 |
| 4.3 候选近似函数依赖搜索和剪枝 | 第60-63页 |
| 4.3.1 搜索策略 | 第61页 |
| 4.3.2 剪枝策略 | 第61-63页 |
| 4.4 水平切分的分布式大数据近似函数依赖发现 | 第63-71页 |
| 4.4.1 集中式发现方法 | 第63-64页 |
| 4.4.2 分布式并行近似函数依赖发现算法 | 第64-71页 |
| 4.5 实验结果与分析 | 第71-73页 |
| 4.5.1 实验设置 | 第71-72页 |
| 4.5.2 实验结果分析 | 第72-73页 |
| 4.6 本章小结 | 第73-75页 |
| 5 分布式大数据不一致性检测 | 第75-97页 |
| 5.1 引言 | 第75-78页 |
| 5.2 函数依赖及其冲突检测 | 第78-79页 |
| 5.2.1 函数依赖 | 第78页 |
| 5.2.2 函数依赖冲突 | 第78-79页 |
| 5.2.3 函数依赖冲突检测 | 第79页 |
| 5.3 分布式大数据不一致性检测方法 | 第79-90页 |
| 5.3.1 单个函数依赖冲突检测方法 | 第79-84页 |
| 5.3.2 多个函数依赖冲突检测方法 | 第84-90页 |
| 5.4 实验结果及评价 | 第90-94页 |
| 5.4.1 实验设置 | 第90-91页 |
| 5.4.2 结果及评价 | 第91-94页 |
| 5.5 本章小结 | 第94-97页 |
| 6 分布式大数据多函数依赖冲突检测 | 第97-119页 |
| 6.1 引言 | 第97-99页 |
| 6.2 等价类及函数依赖冲突 | 第99-101页 |
| 6.2.1 等价类 | 第99-100页 |
| 6.2.2 函数依赖冲突 | 第100-101页 |
| 6.3 分布式大数据多函数依赖冲突检测方法 | 第101-115页 |
| 6.3.1 方法CenDet | 第101-102页 |
| 6.3.2 方法MultiFDsDet_(DS) | 第102-115页 |
| 6.4 实验结果与分析 | 第115-117页 |
| 6.4.1 实验设置 | 第115页 |
| 6.4.2 结果与分析 | 第115-117页 |
| 6.5 本章小结 | 第117-119页 |
| 7 基于统计学习的自动数据清洗 | 第119-139页 |
| 7.1 引言 | 第119-121页 |
| 7.2 无监督数据清洗 | 第121-132页 |
| 7.2.1 数据模型学习 | 第122-123页 |
| 7.2.2 数据清洗规则生成 | 第123-129页 |
| 7.2.3 基于推理的数据修复 | 第129-132页 |
| 7.3 实验结果与分析 | 第132-137页 |
| 7.3.1 实验设置 | 第132页 |
| 7.3.2 结果分析 | 第132-137页 |
| 7.4 本章小结 | 第137-139页 |
| 8 结论与展望 | 第139-143页 |
| 8.1 论文工作总结 | 第139-140页 |
| 8.2 本文创新点 | 第140-141页 |
| 8.3 进一步研究方向与展望 | 第141-143页 |
| 参考文献 | 第143-151页 |
| 致谢 | 第151-153页 |
| 攻读博士学位期间发表的学术论文和参加科研情况 | 第153-156页 |