首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop的大数据处理平台设计与实现

摘要第2-3页
Abstract第3页
1 绪论第7-10页
    1.1 选题背景第7-8页
    1.2 国内外研究现状第8页
    1.3 论文研究内容第8-9页
    1.4 论文组织结构第9-10页
2 关键技术第10-18页
    2.1 Hadoop介绍第10-14页
        2.1.1 HDFS架构第10-11页
        2.1.2 MapReduce介绍第11-12页
        2.1.3 Yarn运行机制第12-14页
    2.2 Hive介绍第14-16页
        2.2.1 Hive的组件第14-15页
        2.2.2 Hive运行机制第15-16页
    2.3 Flume介绍第16-17页
    2.4 本章小结第17-18页
3 需求分析第18-22页
    3.1 数据处理流程分析第18页
    3.2 功能性需求第18-19页
    3.3 非功能性需求第19-20页
    3.4 用例设计第20页
    3.5 本章小结第20-22页
4 系统设计第22-27页
    4.1 系统总体架构第22页
    4.2 系统功能模块设计第22-26页
        4.2.1 数据采集模块设计第22-23页
        4.2.2 数据处理及存储模块设计第23-25页
        4.2.3 数据同步模块设计第25页
        4.2.4 系统调度模块设计第25-26页
    4.3 本章小结第26-27页
5 数据处理Hive QL优化第27-43页
    5.1 Hadoop计算框架的特点第27页
    5.2 Hive的优化约定及实际示例第27-35页
        5.2.1 列裁剪(Column Pruning)第27-28页
        5.2.2 分区裁剪(Partition Pruning)第28-29页
        5.2.3 Hive中的Join操作第29-30页
        5.2.4 Map-Side Join优化第30-31页
        5.2.5 Hive可以避免进行MapReduce的情况第31-32页
        5.2.6 全局排序第32-33页
        5.2.7 笛卡尔积第33-34页
        5.2.8 Hive中mapper和reduce的个数第34页
        5.2.9 Hive中的Group By操作第34-35页
        5.2.10 合并小文件第35页
    5.3 实际Hive QL优化典型案例分析第35-42页
        5.3.1 对虚假号码业务Hive QL的优化分析第35-39页
        5.3.2 Union All的优化第39-40页
        5.3.3 充分利用Map-Side Join第40-42页
    5.4 本章小结第42-43页
6 系统实现与测试第43-60页
    6.1 大数据处理平台搭建第43-47页
        6.1.1 Hadoop版本选择第43-44页
        6.1.2 集群环境第44页
        6.1.3 集群节点分配第44-45页
        6.1.4 服务器环境配置第45-46页
        6.1.5 安装CDH集群第46-47页
    6.2 系统模块实现第47-58页
        6.2.1 数据采集模块的实现第47-51页
        6.2.2 数据处理及存储模块的实现第51-55页
        6.2.3 数据同步模块的实现第55-56页
        6.2.4 系统调度模块的实现第56-58页
    6.3 系统性能测试第58-59页
        6.3.1 测试环境第58页
        6.3.2 性能测试第58-59页
    6.4 本章小结第59-60页
结论第60-61页
参考文献第61-63页
致谢第63-65页

论文共65页,点击 下载论文
上一篇:退休人员信息管理系统设计与实现
下一篇:轨道车辆辅助电源系统半实物仿真建模研究