首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Spark的Web日志分析处理系统

摘要第3-4页
abstract第4页
1 绪论第7-11页
    1.1 研究背景及意义第7页
    1.2 国内外研究现状第7-8页
    1.3 本文主要研究内容第8-9页
    1.4 本文组织结构第9-11页
2 相关技术概述第11-21页
    2.1 分布式计算技术第11页
    2.2 Spark简介第11-14页
        2.2.1 可弹性伸缩分布式数据集RDD第12-13页
        2.2.2 Spark SQL第13-14页
        2.2.3 Spark Data Frame编程模型第14页
    2.3 分布式文件系统HDFS简介第14-15页
    2.4 开源日志收集系统简介第15-17页
    2.5 文本聚类概念第17-19页
        2.5.1 文本聚类过程第17-18页
        2.5.2 文本聚类技术第18-19页
    2.6 本章小结第19-21页
3 系统分析与设计第21-29页
    3.1 系统需求分析第21-22页
        3.1.1 Web日志概念第21页
        3.1.2 Web日志分析工具第21-22页
        3.1.3 系统功能模块结构第22页
    3.2 系统体系结构第22-23页
    3.3 系统软件模块结构第23-28页
        3.3.1 日志收集模块第24-25页
        3.3.2 日志存储模块第25-26页
        3.3.3 日志分析模块第26-27页
        3.3.4 数据展示模块第27-28页
    3.4 本章小结第28-29页
4 系统实现第29-39页
    4.1 日志收集模块第29-30页
    4.2 日志存储模块第30-32页
    4.3 日志分析模块第32-37页
        4.3.1 Web日志数据清理模块第32-34页
        4.3.2 Web日志数据特征提取模块第34-35页
        4.3.3 Web日志数据特征正则化模块第35页
        4.3.4 Web日志数据特征分析模块第35-37页
    4.4 数据展示模块第37-38页
    4.5 本章小结第38-39页
5 Spark平台搭建第39-47页
    5.1 Spark集群配置第39页
    5.2 Spark分布式集群搭建第39-45页
        5.2.1 Hadoop集群搭建第39-43页
        5.2.2 Spark集群搭建第43-45页
    5.3 Spark基本工作流程第45页
    5.4 本章小结第45-47页
6 系统部署与运行第47-61页
    6.1 数据来源第47-48页
    6.2 数据导入第48-50页
    6.3 系统部署第50-52页
    6.4 系统运行过程与结果分析第52-57页
    6.5 系统效率分析第57-59页
        6.5.1 单机环境第57-58页
        6.5.2 Spark集群环境第58-59页
    6.6 本章小结第59-61页
7 结论第61-63页
致谢第63-65页
参考文献第65-66页

论文共66页,点击 下载论文
上一篇:基于MVC的税款查账系统的设计与实现
下一篇:非负局部协调分解算法研究及其应用