汉越双语新闻话题分析方法研究

摘要	第5-6页
Abstract	第6-7页
第一章绪论	第11-21页
1.1. 研究背景及意义	第11-12页
1.2. 国内外研究现状	第12-18页
1.2.1. 越南语相关研究	第12页
1.2.2. 语义相关度研究现状	第12-17页
1.2.3. 文本相似度的研究现状	第17页
1.2.4. 双语新闻话题的研究现状	第17-18页
1.3. 研究内容与组织结构	第18-21页
1.3.1. 研究内容	第18-19页
1.3.2.论文组织	第19-21页
第二章相关理论基础	第21-31页
2.1. 语义相关度	第21-25页
2.1.1. 语义相关度概念	第21-22页
2.1.2. 语义相关度测试集介绍	第22-24页
2.1.3. 语义相关度评测方法介绍	第24-25页
2.2. 文本相似度理论基础	第25-27页
2.2.1. 文本结构化表示	第25-26页
2.2.2. 向量空间模型	第26-27页
2.3. 话题相关理论	第27-30页
2.3.1. 话题发现的任务	第27-28页
2.3.2. 话题发现体系	第28-29页
2.3.3. 新闻特征分析及结构化	第29-30页
2.4. 本章小结	第30-31页
第三章基于维基百科的汉越词语语义相关度计算	第31-43页
3.1. 引言	第31-32页
3.2. 维基百科数据获取与预处理	第32-35页
3.2.1. 维基百科介绍	第32-34页
3.2.2. 维基百科数据获取	第34-35页
3.2.3. 维基百科数据预处理	第35页
3.3. 汉越词语语义相关度计算	第35-38页
3.3.1. 基于维基百科的ESA算法	第35-36页
3.3.2. 概念的ESA向量表示	第36-38页
3.3.3. 跨语言词语语义相关度	第38页
3.4. 实验与分析	第38-41页
3.4.1. 测试集构建	第38-39页
3.4.2. 实验数据	第39页
3.4.3. 评价方法	第39-40页
3.4.4. 实验结果与分析	第40-41页
3.5. 本章小结	第41-43页
第四章基于双语主题分布词的汉越文本相似度计算	第43-53页
4.1. 引言	第43页
4.2. 主题模型	第43-45页
4.3. 跨语言文本相似度计算	第45-49页
4.3.1. 基本流程	第45-46页
4.3.2. 跨语言主题识别	第46页
4.3.3. KL散度	第46-47页
4.3.4. 余弦相似度	第47-48页
4.3.5. 文本相似度确定	第48-49页
4.4. 实验与分析	第49-52页
4.4.1. 实验数据	第49-50页
4.4.2. 数据处理	第50页
4.4.3. 评价标准	第50-51页
4.4.4. 实验结果与分析	第51-52页
4.5. 本章小结	第52-53页
第五章融合要素及主题的汉越双语新闻话题分析	第53-63页
5.1. 引言	第53页
5.2. 汉越双语新闻文本处理	第53-56页
5.2.1. 数据准备	第53-54页
5.2.2. 新闻文本特征提取	第54-55页
5.2.3. 文本相似度矩阵	第55-56页
5.3. 自适应K均值聚类	第56-59页
5.3.1. K均值	第57页
5.3.2. 聚类数的确定	第57-58页
5.3.3. 自适应K均值聚类算法描述	第58-59页
5.4. 实验结果与分析	第59-61页
5.4.1. 实验数据	第59页
5.4.2. 评价方法	第59-60页
5.4.3. 实验结果与分析	第60-61页
5.5. 本章小结	第61-63页
第六章结束语	第63-65页
6.1. 论文总结	第63页
6.2. 下一步工作	第63-65页
致谢	第65-67页
参考文献	第67-75页
附录A 攻读硕士期间发表论文与申请软件著作权	第75-77页
附录B 攻读硕士期间参与项目	第77页