首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop平台的Web日志聚类分析算法研究

摘要第4-5页
ABSTRACT第5页
第一章 绪论第8-16页
    1.1 研究背景第8-9页
    1.2 论文研究意义第9-11页
    1.3 国内外研究现状第11-13页
        1.3.1 聚类算法领域的研究第11-12页
        1.3.2 Hadoop框架下的聚类分析第12-13页
    1.4 论文主要完成的工作内容第13-14页
    1.5 论文的结构安排第14-16页
第二章 相关技术及应用研究第16-30页
    2.1 分布式相关技术的研究第16-24页
        2.1.1 大数据的存储与处理第16-17页
        2.1.2 Apache Hadoop和Hadoop生态系统第17页
        2.1.3 分布式文件系统HDFS第17-20页
        2.1.4 分布式编程框架MapReduce第20-23页
        2.1.5 Apache Hadoop YARN第23-24页
    2.2 聚类与Web日志挖掘第24-29页
        2.2.1 聚类分析第24-27页
        2.2.2 Web挖掘第27-28页
        2.2.3 Web日志挖掘中的聚类第28-29页
    2.3 本章小结第29-30页
第三章 聚类算法的并行化扩展第30-42页
    3.1 传统的K-means算法及其并行化的改进第30-34页
    3.2 基于密度的K-means聚类及并行化改进可行性分析第34-38页
    3.3 基于密度的K-means算法并行化的改进第38-41页
    3.4 本章小结第41-42页
第四章 日志聚类分析系统设计第42-52页
    4.1 日志聚类分析系统总体架构第42-43页
    4.2 数据采集和存储模块第43-44页
    4.3 日志的预处理及特征提取模块第44-49页
        4.3.1 数据的清洗第45-46页
        4.3.2 用户及会话识别第46-49页
    4.4 数据的处理模块第49-50页
    4.5 结果的存储与展示模块第50页
    4.6 本章小结第50-52页
第五章 系统的搭建与实验测试第52-60页
    5.1 Hadoop集群的部署第52页
    5.2 实验数据的测试第52-58页
        5.2.1 测试实验数据集的准备第52-54页
        5.2.2 算法准确率和聚类效果检测实验第54-56页
        5.2.3 Hadoop集群的性能测试实验第56-58页
    5.3 本章总结第58-60页
总结与展望第60-62页
参考文献第62-66页
攻读硕士学位期间取得的科研成果第66-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:影响税收增长的经济因素分析--基于东中西部面板数据
下一篇:基于Web文本的文物知识图谱自动生成方法研究