摘要 | 第5-6页 |
Abstract | 第6-7页 |
第一章 绪论 | 第10-18页 |
1.1 研究背景及意义 | 第10-11页 |
1.1.1 话题发现技术 | 第10-11页 |
1.1.2 多语言话题发现技术 | 第11页 |
1.2 研究现状 | 第11-14页 |
1.2.1 单语话题发现研究现状 | 第11-13页 |
1.2.2 双语新闻话题发现方法研究现状 | 第13-14页 |
1.3 论文的研究内容 | 第14-15页 |
1.4 论文的组织 | 第15-16页 |
1.5 本文的创新工作 | 第16-18页 |
第二章 汉泰跨语言词分布表示 | 第18-32页 |
2.1 引言 | 第18-19页 |
2.2 泰语的语言序列化特点 | 第19页 |
2.3 神经概率语言模型 | 第19-20页 |
2.4 汉泰跨语言词分布表示 | 第20-27页 |
2.4.1 汉语与泰语的词序列分布特点 | 第20-21页 |
2.4.2 平行语料预处理 | 第21页 |
2.4.3 平行语料词对齐 | 第21-22页 |
2.4.4 泰语词与汉语词相似关系替换 | 第22-25页 |
2.4.5 大规模汉泰混合语料弱监督学习扩展过程 | 第25-26页 |
2.4.6 模型学习 | 第26-27页 |
2.5 实验及分析 | 第27-30页 |
2.5.1 文本相似度计算方法 | 第27页 |
2.5.2 实验结果与分析 | 第27-30页 |
2.6 本章小结 | 第30-32页 |
第三章 汉泰双语实体对齐方法研究 | 第32-46页 |
3.0 引言 | 第32-33页 |
3.1 实体对齐任务 | 第33-35页 |
3.1.1 双语实体对齐任务 | 第33页 |
3.1.2 泰语的相关实体启发特征 | 第33-35页 |
3.2 泰语实体识别模型 | 第35-36页 |
3.3 相关理论基础 | 第36-37页 |
3.3.1 朴素贝叶斯模型 | 第36-37页 |
3.3.2 等价实体的候选泰语实体的筛选 | 第37页 |
3.4 汉泰实体的翻译相似度匹配对齐 | 第37-38页 |
3.5 汉泰实体的模式对齐 | 第38-39页 |
3.6 汉泰实体的朴素贝叶斯对齐 | 第39-42页 |
3.6.1 统计人名、地名知识信息 | 第40页 |
3.6.2 基于朴素贝叶斯的实体对齐模型 | 第40-42页 |
3.7 融合三种实体对齐方式的组合实体对齐规则 | 第42-43页 |
3.8 实验及结果分析 | 第43-44页 |
3.9 小结 | 第44-46页 |
第四章 基于极大团聚类的汉泰双语新闻话题发现 | 第46-58页 |
4.1 引言 | 第46页 |
4.2 可信关联规则和极大团算法 | 第46-48页 |
4.3 汉泰跨语言热点话题在线发现过程 | 第48-54页 |
4.3.1 TextRank算法提取新闻关键词和生成新闻信息 | 第48-49页 |
4.3.2 基于可信关联规则挖掘汉泰跨语言热点话题极大团 | 第49-54页 |
4.4 实验及评价 | 第54-56页 |
4.5 结论 | 第56-58页 |
第五章 结论 | 第58-60页 |
5.1 总结和展望 | 第58-60页 |
致谢 | 第60-62页 |
参考文献 | 第62-68页 |
附录A 攻读硕士期间发表论文 | 第68-70页 |
附录B 攻读硕士期间参与项目 | 第70-72页 |
附录C 攻读硕士期间申请软件的著作权 | 第72页 |