连续序列模式并行挖掘研究

摘要	第5-6页
Abstract	第6页
第一章绪论	第9-14页
1.1 研究背景及意义	第9页
1.2 国内外研究现状	第9-12页
1.3 课题研究内容和创新点	第12页
1.3.1 课题研究内容	第12页
1.3.2 课题创新点	第12页
1.4 本文组织结构	第12-14页
第二章相关知识与算法	第14-32页
2.1 序列模式	第14-23页
2.1.1 相关定义	第14-15页
2.1.2 典型的序列模式挖掘算法	第15-21页
2.1.3 现有的并行序列模式挖掘算法	第21-23页
2.2 HOOP及相关知识介绍	第23-31页
2.2.1 Hadoop概述	第23-24页
2.2.2 HDFS与Map/Reduce介绍	第24-28页
2.2.3 Hive简介	第28-29页
2.2.4 Hive执行原理与组件	第29-31页
2.3 本章小结	第31-32页
第三章 CONTINUOUS-PREFIXSPAN串行连续序列模式挖掘算法	第32-38页
3.1 算法思路	第32页
3.2 算法改进介绍	第32-34页
3.3 算法复杂度分析	第34页
3.4 算法的应用实例及结果对比	第34-36页
3.5 效率对比	第36-37页
3.6 本章小结	第37-38页
第四章并行数据预处理方案	第38-45页
4.1 HIVE与传统关系数据库系统的对比	第38-39页
4.2 预处理设计与实现	第39-42页
4.2.1 导入原始数据	第40页
4.2.2 数据清洗	第40-41页
4.2.3 导出处理完的数据	第41-42页
4.3 HIVE查询优化	第42-44页
4.4 本章小结	第44-45页
第五章 CONTINUOUS-PREFIXSPAN并行算法(CPMR)及在HADOOP平台上的实现	第45-54页
5.1 需求描述	第45页
5.2 并行改进基本思路	第45-48页
5.3 实例演示	第48-53页
5.4 算法复杂度分析	第53页
5.5 本章小结	第53-54页
第六章实验结果与分析	第54-64页
6.1 试验软硬件描述	第54-55页
6.1.1 集群节点及硬件环境	第54-55页
6.1.2 软件环境	第55页
6.2 HADOOP平台的搭建	第55-59页
6.2.1 SSH配置	第56页
6.2.2 master和slaves的配置	第56-57页
6.2.3 Hadoop环境变量配置	第57页
6.2.5 Hadoop的配置	第57-59页
6.3 HIVE框架部署	第59-61页
6.4 测试数据的来源、格式和规模	第61页
6.5 实验结果与对比分析	第61-64页
总结和展望	第64-66页
参考文献	第66-69页
攻读硕士学位期间发表的论文及参与的项目	第69-70页
致谢	第70页