摘要 | 第5-6页 |
Abstract | 第6页 |
第一章 绪论 | 第9-14页 |
1.1 研究背景及意义 | 第9页 |
1.2 国内外研究现状 | 第9-12页 |
1.3 课题研究内容和创新点 | 第12页 |
1.3.1 课题研究内容 | 第12页 |
1.3.2 课题创新点 | 第12页 |
1.4 本文组织结构 | 第12-14页 |
第二章 相关知识与算法 | 第14-32页 |
2.1 序列模式 | 第14-23页 |
2.1.1 相关定义 | 第14-15页 |
2.1.2 典型的序列模式挖掘算法 | 第15-21页 |
2.1.3 现有的并行序列模式挖掘算法 | 第21-23页 |
2.2 HOOP及相关知识介绍 | 第23-31页 |
2.2.1 Hadoop概述 | 第23-24页 |
2.2.2 HDFS与Map/Reduce介绍 | 第24-28页 |
2.2.3 Hive简介 | 第28-29页 |
2.2.4 Hive执行原理与组件 | 第29-31页 |
2.3 本章小结 | 第31-32页 |
第三章 CONTINUOUS-PREFIXSPAN串行连续序列模式挖掘算法 | 第32-38页 |
3.1 算法思路 | 第32页 |
3.2 算法改进介绍 | 第32-34页 |
3.3 算法复杂度分析 | 第34页 |
3.4 算法的应用实例及结果对比 | 第34-36页 |
3.5 效率对比 | 第36-37页 |
3.6 本章小结 | 第37-38页 |
第四章 并行数据预处理方案 | 第38-45页 |
4.1 HIVE与传统关系数据库系统的对比 | 第38-39页 |
4.2 预处理设计与实现 | 第39-42页 |
4.2.1 导入原始数据 | 第40页 |
4.2.2 数据清洗 | 第40-41页 |
4.2.3 导出处理完的数据 | 第41-42页 |
4.3 HIVE查询优化 | 第42-44页 |
4.4 本章小结 | 第44-45页 |
第五章 CONTINUOUS-PREFIXSPAN并行算法(CPMR)及在HADOOP平台上的实现 | 第45-54页 |
5.1 需求描述 | 第45页 |
5.2 并行改进基本思路 | 第45-48页 |
5.3 实例演示 | 第48-53页 |
5.4 算法复杂度分析 | 第53页 |
5.5 本章小结 | 第53-54页 |
第六章 实验结果与分析 | 第54-64页 |
6.1 试验软硬件描述 | 第54-55页 |
6.1.1 集群节点及硬件环境 | 第54-55页 |
6.1.2 软件环境 | 第55页 |
6.2 HADOOP平台的搭建 | 第55-59页 |
6.2.1 SSH配置 | 第56页 |
6.2.2 master和slaves的配置 | 第56-57页 |
6.2.3 Hadoop环境变量配置 | 第57页 |
6.2.5 Hadoop的配置 | 第57-59页 |
6.3 HIVE框架部署 | 第59-61页 |
6.4 测试数据的来源、格式和规模 | 第61页 |
6.5 实验结果与对比分析 | 第61-64页 |
总结和展望 | 第64-66页 |
参考文献 | 第66-69页 |
攻读硕士学位期间发表的论文及参与的项目 | 第69-70页 |
致谢 | 第70页 |