摘要 | 第4-5页 |
Abstract | 第5页 |
第一章 绪论 | 第8-12页 |
1.1 研究背景与意义 | 第8-9页 |
1.2 国内外研究现状 | 第9-10页 |
1.2.1 分布式数据发展现状(Hadoop) | 第9页 |
1.2.2 ETL部件发展现状 | 第9-10页 |
1.3 论文主要研究内容 | 第10-11页 |
1.4 论文组织 | 第11-12页 |
第二章 相关背景知识 | 第12-21页 |
2.1 分布式数据挖掘 | 第12-14页 |
2.1.1 分布式数据挖掘 | 第12页 |
2.1.2 分布式数据挖掘典型应用 | 第12-14页 |
2.1.3 分布式数据挖掘基础工具 | 第14页 |
2.2 分布式数据挖掘引擎系统核心支撑技术 | 第14-18页 |
2.2.1 数据仓库 | 第14-17页 |
2.2.2 数据分析 | 第17页 |
2.2.3 数据挖掘 | 第17-18页 |
2.3 Hadoop | 第18-20页 |
2.3.1 Hadoop架构 | 第18-20页 |
2.3.2 Hadoop特点 | 第20页 |
2.4 分布式数据挖掘引擎系统中的ETL部件 | 第20-21页 |
第三章 分布式数据挖掘引擎 | 第21-36页 |
3.1 分布式数据挖掘引擎 | 第21-23页 |
3.1.1 分布式数据挖掘引擎逻辑架构 | 第21-23页 |
3.1.2 分布式数据挖掘引擎物理架构 | 第23页 |
3.2 建造分布式数据挖掘引擎系统数据仓库 | 第23-28页 |
3.2.1 分布式数据挖掘引擎数据仓库结构 | 第24-25页 |
3.2.2 源数据分析 | 第25-26页 |
3.2.3 数据仓库模型设计 | 第26页 |
3.2.4 数据仓库的ETL | 第26-28页 |
3.3 分布式数据挖掘实体管理器 | 第28-32页 |
3.3.1 实体的概念 | 第28-29页 |
3.3.2 实体分类 | 第29页 |
3.3.3 实体管理器 | 第29-32页 |
3.4 分布式数据挖掘引擎搜索模块 | 第32-36页 |
3.4.1 搜索系统简介 | 第32页 |
3.4.2 搜索系统设计与实现 | 第32-34页 |
3.4.3 索引的建立和使用 | 第34-36页 |
第四章 结构化数据文件预处理 | 第36-41页 |
4.1 结构化数据文件中数据空缺值处理 | 第36-37页 |
4.2 结构化数据文件噪声处理方法 | 第37-38页 |
4.3 结构化数据集成与变换 | 第38-39页 |
4.4 数据规约 | 第39-41页 |
第五章 多源结构化数据的ETL部件的设计与实现 | 第41-52页 |
5.1 多源结构化数据ETL部件整体架构 | 第41-44页 |
5.1.1 ETL整体架构 | 第41-42页 |
5.1.2 ETL应用原则 | 第42-43页 |
5.1.3 ETL策略 | 第43-44页 |
5.2 多源结构化数据的ETL主要处理 | 第44-47页 |
5.2.1 多源数据文件管理 | 第44页 |
5.2.2 多源数据文件上传 | 第44-45页 |
5.2.3 数据文件抽取和转换 | 第45-47页 |
5.2.4 数据入库 | 第47页 |
5.3 数据编码 | 第47页 |
5.4 数据接口 | 第47-48页 |
5.4.1 分布式数据挖掘引擎系统与外部数据源接口 | 第47-48页 |
5.4.2 分布式数据挖掘引擎系统与业务接口 | 第48页 |
5.5 ETL的流程与调度 | 第48-50页 |
5.5.1 ETL流程 | 第49-50页 |
5.5.2 ETL调度 | 第50页 |
5.6 ETL问题反馈与解决 | 第50-52页 |
5.6.1 ETL过程中的问题解决 | 第50-51页 |
5.6.2 定时核查与抽验 | 第51-52页 |
第六章 总结与展望 | 第52-54页 |
参考文献 | 第54-57页 |
致谢 | 第57页 |