一种基于日志的分布式增量聚类算法

摘要	第5-6页
abstract	第6-7页
第一章绪论	第11-20页
1.1 研究工作的背景与意义	第11-13页
1.2 国内外研究历史与现状	第13-18页
1.2.1 日志分析	第13-15页
1.2.2 聚类分析	第15-18页
1.3 本文的主要贡献与创新	第18-19页
1.4 本论文的结构安排	第19-20页
第二章日志数据处理与分析	第20-32页
2.1 日志数据的分布与分析	第20-23页
2.1.0 日志数据收集	第20页
2.1.1 日志数据的特征与分布	第20-22页
2.1.2 异常日志数据分布	第22-23页
2.2 日志数据预处理	第23-28页
2.2.1 日志数据清洗	第24-25页
2.2.2 日志数据解析	第25-27页
2.2.3 日志数据重链接	第27-28页
2.3 日志数据抽样	第28-31页
2.3.1 数据抽样与聚类	第28-29页
2.3.2 抽样率的选择	第29-31页
2.4 本章小结	第31-32页
第三章聚类分析	第32-45页
3.1 日志聚类分析	第32-34页
3.1.1 日志聚类分析的原因	第32-33页
3.1.2 日志聚类分析的优势与难点	第33-34页
3.2 Cascading日志聚类算法相似度测量的选择与设计	第34-39页
3.2.1 相似度距离的选择	第34-36页
3.2.1.1 欧式距离	第34-35页
3.2.1.2 曼哈顿距离	第35页
3.2.1.3 马氏距离	第35页
3.2.1.4 余弦相似性	第35-36页
3.2.1.5 汉明距离与编辑距离	第36页
3.2.2 Cascading聚类算法的相似度距离	第36-39页
3.2.2.1 逆向文件频率	第37-38页
3.2.2.2 相似性距离计算	第38-39页
3.3 聚类分析算法的选择与设计	第39-42页
3.3.1 聚类算法的选择与研究	第39-42页
3.3.2 与传统聚类算法的比较	第42页
3.4 Cascading聚类算法效果的评估	第42-44页
3.4.1 聚类效果评估方法的选择	第42-43页
3.4.1.1 纯度	第43页
3.4.1.2 归一化互信息 (NMI)	第43页
3.4.1.3 边缘索引	第43页
3.4.2 Cascading聚类效果的质量	第43-44页
3.5 本章小结	第44-45页
第四章分布式Cascading层次聚类	第45-52页
4.1 分布式处理技术	第45页
4.2 Cascading层次聚类步骤	第45-48页
4.3 分布式系统	第48-49页
4.3.1 分布式存储系统	第48页
4.3.2 分布式计算系统	第48-49页
4.4 分布式日志数据处理	第49-51页
4.5 本章小结	第51-52页
第五章 Cascading聚类算法	第52-68页
5.1 Cascading聚类算法的选择与设计	第52-53页
5.2 Cascading聚类算法	第53-56页
5.2.1 层叠聚类	第53-54页
5.2.2 算法描述	第54页
5.2.3 算法分析	第54-55页
5.2.4 时间复杂度	第55-56页
5.3 Cascading日志聚类算法所提高的效率	第56-61页
5.3.1 实验准备	第57页
5.3.2 通过Cascading聚类所减少的工作量	第57-61页
5.4 MapReduce实现并行化Cascading聚类算法	第61-62页
5.5 日志分析系统的集成	第62-67页
5.5.1 历史样本库	第62-63页
5.5.2 用户接口	第63页
5.5.3 核心算法	第63-65页
5.5.4 功能模块	第65-67页
5.6 本章小结	第67-68页
第六章全文总结与展望	第68-70页
6.1 全文总结	第68页
6.2 后续工作展望	第68-70页
致谢	第70-71页
参考文献	第71-77页
攻读硕士学位期间取得的成果	第77-78页