| 摘要 | 第1-4页 |
| Abstract | 第4-7页 |
| 1 引言 | 第7-11页 |
| ·研究背景及研究意义 | 第7-9页 |
| ·本文工作 | 第9-10页 |
| ·论文组织 | 第10-11页 |
| 2 文本聚类 | 第11-19页 |
| ·文本聚类概述 | 第11-12页 |
| ·k-均值算法 | 第12-14页 |
| ·Canopy 聚类算法 | 第14-15页 |
| ·聚类算法评价指标 | 第15-17页 |
| ·纯度(Purity) | 第15-16页 |
| ·归一化互信息 Normalized Mutual Information(NMI) | 第16页 |
| ·RI(Rand Index,兰德指数) | 第16页 |
| ·F 值(F measure) | 第16-17页 |
| ·本章小结 | 第17-19页 |
| 3 并行编程模式 | 第19-33页 |
| ·OpenMP | 第19-20页 |
| ·MPI 消息传递接口 | 第20-22页 |
| ·MapReduce 编程模式 | 第22-30页 |
| ·MapReduce 简介 | 第22-24页 |
| ·Hadoop 简介 | 第24-27页 |
| ·Mahout 简介 | 第27-29页 |
| ·一个 MapReduce 的实例——倒排索引 | 第29-30页 |
| ·本章小结 | 第30-33页 |
| 4 基于 MapReduce 的协同聚类算法 | 第33-45页 |
| ·协同聚类算法 | 第33-36页 |
| ·Disco 框架 | 第36-39页 |
| ·基于 MapReduce 的并行协同聚类算法(MR_Co-Clustering) | 第39-44页 |
| ·本章小结 | 第44-45页 |
| 5 实验与结果分析 | 第45-49页 |
| ·实验环境和数据集 | 第45页 |
| ·评价指标 | 第45-46页 |
| ·实验结果 | 第46-48页 |
| ·本章小结 | 第48-49页 |
| 6 总结与展望 | 第49-51页 |
| ·总结 | 第49页 |
| ·后续工作与展望 | 第49-51页 |
| 参考文献 | 第51-55页 |
| 致谢 | 第55-57页 |
| 在学期间公开发表论文(著)及科研情况 | 第57页 |