汉越双语新闻话题发现研究

摘要	第5-7页
Abstract	第7-8页
第一章绪论	第12-18页
1.1 研究背景及意义	第12-13页
1.2 新闻话题的国内外研究现状	第13-16页
1.3 研究内容与组织结构	第16-18页
1.3.1 研究内容	第16-17页
1.3.2 论文组织	第17-18页
第二章新闻话题发现基础理论	第18-30页
2.1 新闻话题发现的任务	第18-20页
2.1.1 单语言来源的话题检测任务	第18页
2.1.2 跨语言多语言的话题检测任务	第18-19页
2.1.3 话题发现体系结构	第19-20页
2.2 新闻话题发现的相关理论	第20-28页
2.2.1 新闻话题发现与检测的语料库	第20-21页
2.2.2 语料库内容	第21-22页
2.2.3 基于Hadoop的汉越双语新闻语料爬取	第22-25页
2.2.4 文本表示模型	第25-27页
2.2.5 TF-IDF	第27页
2.2.6 相似度计算方法	第27-28页
2.3 本章小结	第28-30页
第三章融合要素关联关系的中文新闻话题聚类	第30-38页
3.1 引言	第30页
3.2 关于近邻传播聚类算法	第30-31页
3.3 融合要素关联关系的中文新闻话题聚类模型构建	第31-35页
3.3.1 新闻页面初始相似度矩阵构造	第32页
3.3.2 利用要素关联关系校正初始相似度矩阵	第32-33页
3.3.3 要素关联特征约束及相似度校正	第33-34页
3.3.4 新闻话题聚类模型构建	第34-35页
3.4 实验结果与分析	第35-37页
3.4.1 实验数据	第35页
3.4.2 评价方法	第35-36页
3.4.3 实验结果与分析	第36-37页
3.5 本章小结	第37-38页
第四章基于可比语料词语相似度的汉越跨语言话题发现	第38-46页
4.1 引言	第38-39页
4.2 基于可比语料词语相似度的汉越跨语言话题发现方法	第39-43页
4.2.1 基于可比语料的汉越词语相关性	第40-41页
4.2.2 基于汉越词语相似度的跨语言查询翻译模型构建	第41-42页
4.2.3 越南语文档聚类及话题分析	第42-43页
4.3 实验结果与分析	第43-44页
4.3.1 实验数据	第43页
4.3.2 实验评测指标与结果分析	第43-44页
4.4 本章小结	第44-46页
第五章汉语-越南语舆情话题发现原型系统	第46-52页
5.1 引言	第46页
5.2 汉越双语话题发现系统整体架构	第46-47页
5.3 数据集	第47-48页
5.4 系统功能	第48-51页
5.5 本章小结	第51-52页
第六章结束语	第52-54页
6.1 论文总结	第52页
6.2 下一步工作	第52-54页
致谢	第54-56页
参考文献	第56-64页
附录A 攻读硕士期间发表论文与申请软件著作权	第64-66页
附录B 攻读硕士期间参与项目	第66-68页
附录C 汉越双语新闻话题聚类结果	第68-70页