摘要 | 第5-6页 |
Abstract | 第6页 |
第1章 绪论 | 第9-18页 |
1.1 本文的研究背景 | 第9-10页 |
1.2 本文的研究意义 | 第10-12页 |
1.3 国内外研究现状概述 | 第12-14页 |
1.4 主要难点及面临的挑战 | 第14-15页 |
1.5 本文的主要工作 | 第15-16页 |
1.6 本文结构 | 第16-18页 |
第2章 相关研究综述 | 第18-30页 |
2.1 文档相似度计算的研究进展 | 第18-20页 |
2.1.1 基于相同单词统计的相似度计算 | 第18页 |
2.1.2 基于文档表示模型的相似度计算 | 第18-20页 |
2.1.3 基于单词向量模型的相似度计算 | 第20页 |
2.2 文档聚类方法的研究进展 | 第20-24页 |
2.2.1 基于凝聚算法的聚类方法 | 第20-22页 |
2.2.2 基于K-means的递归聚类方法 | 第22页 |
2.2.3 基于文档和项的关联度的聚类方法 | 第22-24页 |
2.2.4 基于词义归纳的聚类方法 | 第24页 |
2.2.5 基于词义消歧的方法 | 第24页 |
2.3 主题词提取方法的研究进展 | 第24-26页 |
2.3.1 基于概念词权重的主题词提取方法 | 第25页 |
2.3.2 基于词义归纳的主题词提取方法 | 第25-26页 |
2.4 本文使用的相似度计算方法 | 第26-28页 |
2.5 本文使用的主题词获取和文档聚类方法 | 第28-29页 |
2.6 本章小结 | 第29-30页 |
第3章 基于维基歧义页的搜索结果聚类算法 | 第30-37页 |
3.1 问题公式化 | 第30-31页 |
3.2 构建主题概念词 | 第31-35页 |
3.2.1 清洗主题描述信息 | 第31-32页 |
3.2.2 对概念词的语义过滤 | 第32-35页 |
3.3 查询结果匹配 | 第35-36页 |
3.4 本章小结 | 第36-37页 |
第4章 算法实现难点及解决方案 | 第37-47页 |
4.1 使用单词向量模型的问题 | 第37-41页 |
4.1.1 向量模型太大引发的问题 | 第37-38页 |
4.1.2 对无对应向量的概念词的处理 | 第38-41页 |
4.2 聚类算法最优参数的获取 | 第41-46页 |
4.2.1 参数调整数据集 | 第41页 |
4.2.2 参数优化目标 | 第41-42页 |
4.2.3 参数优化算法 | 第42-44页 |
4.2.4 参数优化结果及分析 | 第44-46页 |
4.3 本章小结 | 第46-47页 |
第5章 实验与结果 | 第47-59页 |
5.1 CWD算法在AMBIENT数据集上的实验结果 | 第47-52页 |
5.1.1 AMBIENT数据集描述 | 第47-49页 |
5.1.2 实验结果及分析 | 第49-52页 |
5.2 CWD算法在MORESQUE上的实验结果 | 第52-56页 |
5.2.1 MORESQUE数据集描述 | 第52-53页 |
5.2.2 实验结果及分析 | 第53-56页 |
5.3 CWD算法在不同数据集上结果对比 | 第56页 |
5.4 CWD在同其他聚类算法的比较 | 第56-58页 |
5.5 本章小结 | 第58-59页 |
第6章 总结与展望 | 第59-61页 |
6.1 研究工作总结 | 第59-60页 |
6.2 工作展望 | 第60-61页 |
参考文献 | 第61-64页 |
攻读学位期间发表论文与研究成果清单 | 第64-65页 |
致谢 | 第65页 |