融合新闻要素的汉—泰双语新闻文本相似度计算方法研究

摘要	第5-7页
Abstract	第7-8页
第一章绪论	第11-15页
1.1 研究背景及意义	第11页
1.2 国内外研究现状	第11-13页
1.2.1 中文文本相似度研究现状	第11-12页
1.2.2 跨语言文本相似度计算	第12-13页
1.3 研究内容	第13-14页
1.4 论文的组织	第14-15页
第二章相关理论与技术介绍	第15-35页
2.1 汉语文本相似度计算方法	第15-17页
2.1.1 文本相似度定义	第15页
2.1.2 向量空间模型	第15-16页
2.1.3 基于隐性语义索引模型(LSI)	第16-17页
2.1.4 基于属性理论为基础的属性重心剖分模型	第17页
2.2 跨语言文本相似度计算方法	第17-19页
2.3 基于《知网》的集合相似度算法	第19-22页
2.3.1 《知网》介绍	第19-20页
2.3.2 集合相似度算法	第20-22页
2.4 文本预处理	第22-30页
2.4.1 泰语分词	第22-24页
2.4.2 CRFs泰语分词	第24-25页
2.4.3 基于音节的层叠CRFs泰语分词	第25-28页
2.4.4 泰语词性标注	第28页
2.4.5 条件随机场词性标注模型	第28-29页
2.4.6 特征选择与标注集	第29-30页
2.5 泰语命名实体识别	第30-31页
2.6 互信息	第31-32页
2.6.1 互信息概念	第31-32页
2.7 本章小结	第32-35页
第三章融合新闻要素的中文新闻文本相似度计算	第35-41页
3.1 引言	第35页
3.2 中文文本的预处理	第35-36页
3.3 新闻要素抽取	第36-37页
3.4 新闻要素集合相似度计算	第37-38页
3.5 新闻文本相似度计算	第38页
3.6 本章小结	第38-41页
第四章汉-泰双语新闻文本相似度计算方法	第41-47页
4.1 引言	第41页
4.2 泰语新闻文本爬取	第41页
4.3 泰语文本预处理	第41-42页
4.4 新闻五要素抽取	第42页
4.5 语义消歧	第42-44页
4.6 新闻要素集合相似度计算	第44页
4.7 新闻文本相似度计算	第44-45页
4.8 本章小结	第45-47页
第五章实验结果及分析	第47-59页
5.1 新闻文本爬取步骤	第47-48页
5.2 中文新闻文本相似度计算实验分析	第48-52页
5.3 文本预处理准确度评测	第52-54页
5.4 汉-泰新闻文本相似度计算结果分析	第54-57页
5.5 本章小结	第57-59页
第六章结论	第59-61页
致谢	第61-63页
参考文献	第63-67页
附录A 攻读硕士期间发表的论文	第67-69页
附录B 攻读硕士学位期间参与的科研项目	第69页