摘要 | 第5-7页 |
Abstract | 第7-8页 |
第1章 绪论 | 第9-15页 |
1.1 课题背景 | 第9-10页 |
1.2 研究现状 | 第10-11页 |
1.3 研究内容 | 第11-12页 |
1.4 研究目的及意义 | 第12-13页 |
1.5 论文组织结构 | 第13-15页 |
第2章 相关介绍、问题定义及环境搭建 | 第15-27页 |
2.1 Hadoop概述 | 第15-20页 |
2.1.1 MapReduce并行计算框架 | 第15-16页 |
2.1.2 HDFS分布式文件系统 | 第16-20页 |
2.1.3 Hadoop特性 | 第20页 |
2.1.4 其它组件 | 第20页 |
2.2 Hadoop处理海量小文件问题 | 第20-21页 |
2.3 海量出租车GPS数据短时交通流预测问题 | 第21-23页 |
2.4 Hadoop集群搭建 | 第23-25页 |
2.5 本章小结 | 第25-27页 |
第3章 基于MapReduce的并行化算法实现及实验分析 | 第27-39页 |
3.1 KNN算法MapReduce并行化实现 | 第27-29页 |
3.2 Apriori算法MapReduce并行化实现 | 第29-31页 |
3.3 K-Means算法MapReduce并行化实现 | 第31-34页 |
3.4 实验及结果分析 | 第34-37页 |
3.4.1 实验环境、数据及评价指标 | 第34页 |
3.4.2 实验测试及结果分析 | 第34-37页 |
3.5 本章小结 | 第37-39页 |
第4章 基于Hadoop的海量小文件处理的有效方法和策略 | 第39-45页 |
4.1 小文件处理实现方法 | 第39-40页 |
4.1.1 Hadoop Archive方法 | 第39页 |
4.1.2 Sequence File方法 | 第39-40页 |
4.1.3 CombineFileInputFormat方法 | 第40页 |
4.2 小文件处理策略分析 | 第40-41页 |
4.2.1 分析“Namenode内存消耗” | 第40-41页 |
4.2.2 分析“MapReduce运行速度” | 第41页 |
4.3 实验评估 | 第41-43页 |
4.3.1 实验环境及数据集 | 第41-42页 |
4.3.2 实验及结果分析 | 第42-43页 |
4.4 本章小结 | 第43-45页 |
第5章 出租车GPS数据实例分析 | 第45-59页 |
5.1 K近邻非参数回归短时交通流预测建模及改进 | 第45-48页 |
5.1.1 状态向量模型 | 第45-47页 |
5.1.2 距离向量模型 | 第47页 |
5.1.3 预测函数 | 第47-48页 |
5.1.4 K值个数 | 第48页 |
5.2 基于MapReduce的KNN短时交通流预测算法 | 第48-52页 |
5.2.1 Map函数设计及实现 | 第49-50页 |
5.2.2 Combine函数设计及实现 | 第50-51页 |
5.2.3 Reduce函数设计及实现 | 第51-52页 |
5.3 历史样本数据库建立 | 第52-54页 |
5.3.1 路段选择及校准 | 第52-53页 |
5.3.2 数据采集及处理 | 第53-54页 |
5.3.3 评估指标 | 第54页 |
5.4 实验测试及结果讨论 | 第54-57页 |
5.4.1 实验环境 | 第54页 |
5.4.2 不同K值对实验结果影响 | 第54-55页 |
5.4.3 不同距离向量对实验结果影响 | 第55-56页 |
5.4.4 不同状态向量对结果影响 | 第56-57页 |
5.5 本章小结 | 第57-59页 |
第6章 总结与展望 | 第59-61页 |
6.1 总结 | 第59页 |
6.2 展望 | 第59-61页 |
参考文献 | 第61-65页 |
致谢 | 第65-67页 |
硕士期间发表的论文和参与的课题 | 第67页 |