数据仓库中基于学习的实体解析方法研究
摘要 | 第5-6页 |
Abstract | 第6-7页 |
第一章 绪论 | 第11-17页 |
1.1 课题背景及研究目的和意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-14页 |
1.3 本文主要研究内容 | 第14-15页 |
1.4 论文组织结构安排 | 第15-17页 |
第二章 实体解析基本理论 | 第17-27页 |
2.1 数据质量问题及分类 | 第17-19页 |
2.1.1 单数据源数据质量问题 | 第18页 |
2.1.2 多数据源数据质量问题 | 第18-19页 |
2.2 实体解析基本模型 | 第19-21页 |
2.3 实体解析相关技术 | 第21-23页 |
2.3.1 实体解析分块技术 | 第21-22页 |
2.3.2 元组对比较技术 | 第22页 |
2.3.3 实体解析匹配技术 | 第22-23页 |
2.4 海量数据处理相关技术 | 第23-26页 |
2.4.1 HDFS分布式文件系统 | 第23-25页 |
2.4.2 MapReduce计算架构 | 第25-26页 |
2.4.3 Hive数据仓库平台 | 第26页 |
2.5 本章小结 | 第26-27页 |
第三章 基于学习的实体解析模型研究 | 第27-41页 |
3.1 实体解析整体架构 | 第27页 |
3.2 实体分块 | 第27-29页 |
3.3 特征向量的提取 | 第29-31页 |
3.4 实体解析匹配算法 | 第31-40页 |
3.4.1 BP神经网络算法 | 第32-35页 |
3.4.2 蚁群算法 | 第35-36页 |
3.4.3 初始权值优化的BP神经网络 | 第36-39页 |
3.4.4 实验仿真对比 | 第39-40页 |
3.5 本章小结 | 第40-41页 |
第四章 基于Hadoop的并行实体解析算法设计 | 第41-51页 |
4.1 实体分块并行算法设计 | 第41-43页 |
4.2 实体相似度并行算法设计 | 第43-46页 |
4.2.1 TF-IDF权重及相似度计算 | 第43-45页 |
4.2.2 位置编码相似度计算 | 第45-46页 |
4.3 实体匹配并行算法设计 | 第46-48页 |
4.3.1 神经网络实体匹配并行实现 | 第46-47页 |
4.3.2 初始权值优化神经网络实体匹配并行实现 | 第47-48页 |
4.4 本章小结 | 第48-51页 |
第五章 实验及结果分析 | 第51-61页 |
5.1 实验数据来源 | 第51-52页 |
5.2 评价标准 | 第52-53页 |
5.3 实验环境 | 第53页 |
5.4 各模块设计 | 第53-55页 |
5.5 实验结果分析 | 第55-58页 |
5.5.1 算法精确度分析 | 第55-57页 |
5.5.2 并行处理效率分析 | 第57-58页 |
5.6 本章小结 | 第58-61页 |
第六章 结论 | 第61-63页 |
致谢 | 第63-65页 |
参考文献 | 第65-69页 |
附录 (攻读学位期间发表论文目录) | 第69页 |