基于AP算法的文本聚类研究与实现

摘要	第5-6页
Abstract	第6页
第1章绪论	第10-18页
1.1 课题背景	第10-13页
1.2 研究目标和意义	第13-14页
1.3 国内外研究现状	第14-15页
1.4 论文结构	第15-18页
第2章相关技术研究	第18-36页
2.1 文本聚类过程中相关技术	第18-28页
2.1.1 分词预处理过程	第19-20页
2.1.2 特征项选择与降维	第20-22页
2.1.3 特征项权重计算方法	第22-23页
2.1.4 文本的表示模型	第23-24页
2.1.5 文本相似度计算方法	第24-25页
2.1.6 文本聚类算法研究	第25-28页
2.2 AP算法研究	第28-32页
2.2.1 AP算法原理	第28-30页
2.2.2 AP算法的执行流程	第30-31页
2.2.3 AP算法相关研究	第31-32页
2.3 Hadoop及MapReduce介绍	第32-34页
2.3.1 Hadoop平台简介	第32-33页
2.3.2 HDFS分布式文件系统	第33页
2.3.3 MapReduce编程模型	第33-34页
2.4 本章小结	第34-36页
第3章文本聚类前期处理	第36-48页
3.1 文本聚类流程	第36-38页
3.2 分词预处理过程	第38-40页
3.3 TF-IDF计算过程	第40-43页
3.3.1 TF-IDF原理	第40页
3.3.2 计算过程	第40-43页
3.4 分区过程	第43-45页
3.4.1 分区原理	第43-44页
3.4.2 分区实现过程	第44-45页
3.5 文本相似度计算过程	第45-47页
3.6 本章小结	第47-48页
第4章应用AP算法聚类及优化	第48-62页
4.1 AP算法MapReduce实现难点	第48-49页
4.1.1 AP算法的特点	第48-49页
4.1.2 并行实现的要求	第49页
4.2 AP算法实现过程	第49-55页
4.2.1 实现原理	第49-51页
4.2.2 实现过程	第51-55页
4.3 AP算法优化	第55-60页
4.3.1 剪枝优化	第55-57页
4.3.2 执行优化	第57-59页
4.3.3 停止更新、发送已收敛值	第59-60页
4.4 本章小结	第60-62页
第5章实验结果及分析	第62-70页
5.1 实验环境配置	第62-63页
5.2 实验数据集	第63-64页
5.3 实验效果分析	第64-68页
5.3.1 前期处理分析	第64-65页
5.3.2 分区效果分析	第65-66页
5.3.3 相似度计算分析	第66-67页
5.3.4 聚类算法分析	第67-68页
5.4 本章小结	第68-70页
第6章总结与展望	第70-72页
6.1 总结	第70-71页
6.2 展望	第71-72页
参考文献	第72-78页
致谢	第78页