基于Hadoop的海量小型XML数据挖掘的研究

摘要	第3-4页
ABSTRACT	第4-5页
第1章绪论	第8-12页
1.1 课题研究背景及意义	第8-10页
1.2 国内外研究现状	第10-11页
1.3 论文主要研究内容	第11页
1.4 论文组织结构	第11-12页
第2章相关技术介绍	第12-24页
2.1 数据挖掘及相关技术	第12-13页
2.1.1 数据挖掘技术概述	第12-13页
2.1.2 关联规则	第13页
2.2 Hadoop及相关技术	第13-19页
2.2.1 Hadoop概述	第13-15页
2.2.2 分布式计算模型MapReduce	第15-16页
2.2.3 分布式文件系统HDFS	第16-17页
2.2.4 分布式数据库HBase	第17-19页
2.3 XML及相关技术	第19-23页
2.3.1 XML概述	第19-20页
2.3.2 XML解析技术	第20-23页
2.3.3 XML数据挖掘	第23页
2.4 本章小结	第23-24页
第3章 XML数据预处理	第24-34页
3.1 海量小型XML数据下Hadoop现存问题	第24-26页
3.1.1 HDFS存储问题	第24-25页
3.1.2 MapReduce访问处理问题	第25-26页
3.1.3 Inputformat数据处理问题	第26页
3.2 Hadoop问题解决方案	第26-32页
3.2.1 海量小型XML数据解析	第27-29页
3.2.2 中间数据合并	第29-30页
3.2.3 中间数据编码及存储	第30-32页
3.3 本章小结	第32-34页
第4章关联规则算法XApriori的并行化实现	第34-44页
4.1 Apriori算法分析与改进	第34-37页
4.1.1 Apriori算法基本思想	第34-35页
4.1.2 Apriori算法的不足	第35-36页
4.1.3 Apriori算法的改进	第36-37页
4.2 XApriori算法并行化实现	第37-42页
4.2.1 基于Apriori算法的并行策略	第37-38页
4.2.2 XApriori算法并行化策略	第38-39页
4.2.3 基于MapReduce的XApriori算法实现	第39-42页
4.3 本章小结	第42-44页
第5章系统设计与实验分析	第44-56页
5.1 系统应用架构	第44-46页
5.2 系统功能模块设计	第46-48页
5.2.1 海量XML解析器	第46-47页
5.2.2 中间数据合并器	第47页
5.2.3 中间数据存储编码器	第47-48页
5.2.4 分布式数据挖掘器	第48页
5.3 系统运行环境	第48-49页
5.4 系统环境配置	第49-52页
5.4.1 安装JDK	第49页
5.4.2 配置SSH免密码登陆	第49-50页
5.4.3 Hadoop的安装与配置	第50-51页
5.4.4 HBase的安装与配置	第51-52页
5.5 实验结果分析	第52-54页
5.6 本章小结	第54-56页
第6章总结	第56-58页
6.1 主要内容	第56页
6.2 工作展望	第56-58页
参考文献	第58-62页
攻读学位期间取得的研究成果	第62-64页
致谢	第64-65页