摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
第一章 绪论 | 第8-14页 |
1.1 研究背景和意义 | 第8-10页 |
1.1.1 研究背景 | 第8-9页 |
1.1.2 研究意义 | 第9-10页 |
1.2 国内外研究现状 | 第10-12页 |
1.2.1 话题模型 | 第10-11页 |
1.2.2 聚类算法优化 | 第11-12页 |
1.3 本文的研究重点 | 第12页 |
1.4 本文的组织结构 | 第12-14页 |
第二章 相关理论和技术研究 | 第14-31页 |
2.1 话题发现 | 第14-18页 |
2.1.1 概念界定 | 第14-15页 |
2.1.2 话题发现的一般流程 | 第15-18页 |
2.2 文本聚类算法 | 第18-24页 |
2.2.1 层次的方法(Hierarchical Method) | 第19-21页 |
2.2.2 划分的方法(Partitioning method) | 第21-22页 |
2.2.3 基于密度的方法(Density-based methods) | 第22-23页 |
2.2.4 基于网络的方法(grid-based method) | 第23-24页 |
2.3 大数据技术 | 第24-30页 |
2.3.1 大数据定义 | 第24页 |
2.3.2 分布式文件系统Hadoop | 第24-26页 |
2.3.3 分布式采集机制 | 第26-27页 |
2.3.4 分布式存储机制 | 第27页 |
2.3.5 MapReduce编程模型 | 第27-30页 |
2.4 本章小结 | 第30-31页 |
第三章 教育信息化热点话题发现概述 | 第31-42页 |
3.1 需求分析和系统流程 | 第31-32页 |
3.1.1 需求分析 | 第31-32页 |
3.1.2 系统流程 | 第32页 |
3.2 热点话题发现系统模块实现 | 第32-40页 |
3.2.1 数据采集模块 | 第32-33页 |
3.2.2 数据存储模块 | 第33-34页 |
3.2.3 数据处理模块 | 第34-39页 |
3.2.4 数据分析模块 | 第39-40页 |
3.3 本章小结 | 第40-42页 |
第四章 教育信息化热点话题发现算法 | 第42-48页 |
4.1 算法需求分析 | 第42页 |
4.2 基于MAPREDUCE的算法设计与实现 | 第42-47页 |
4.2.1 MapReduce实现原理 | 第42-43页 |
4.2.2 基于MapReduce的特征权重计算 | 第43-44页 |
4.2.3 基于MapReduce的簇间距离 | 第44页 |
4.2.4 基于MapReduce的层次聚类 | 第44-45页 |
4.2.5 基于MapReduce的算法伪代码展示 | 第45-47页 |
4.3 本章小结 | 第47-48页 |
第五章 实验结果与分析 | 第48-64页 |
5.1 实验环境 | 第48-49页 |
5.2 实验语料分析 | 第49-50页 |
5.3 热点话题发现实验 | 第50-60页 |
5.3.1 中小学网站教育信息化话题发现 | 第50-54页 |
5.3.2 对比试验 | 第54-58页 |
5.3.3 实验验证 | 第58-60页 |
5.4 结果分析 | 第60-63页 |
5.4.1 话题频率趋势分析 | 第60-61页 |
5.4.2 话题内容趋势分析 | 第61-63页 |
5.5 本章小结 | 第63-64页 |
第六章 总结与展望 | 第64-66页 |
6.1 本文总结 | 第64-65页 |
6.2 工作展望 | 第65-66页 |
参考文献 | 第66-69页 |
致谢 | 第69页 |