汉柬双语可比语料库构建方法研究

摘要	第5-7页
Abstract	第7-8页
第一章绪论	第11-17页
1.1 研究背景及意义	第11页
1.2 国内外研究现状	第11-14页
1.3 本文的主要研究内容	第14-15页
1.4 本文的组织结构	第15-17页
第二章基于LM算法的新闻文档关键词提取方法	第17-27页
2.1 引言	第17-18页
2.2 LM算法简介	第18-19页
2.3 新闻文档关键词识别方法	第19-23页
2.3.1 预处理	第19-20页
2.3.2 词汇特征表达式	第20-21页
2.3.3 BP神经网络的实现	第21-23页
2.4 实验设计和结果分析	第23-25页
2.4.1 实验语料	第23页
2.4.2 评价标准	第23-24页
2.4.3 实验及结果分析	第24-25页
2.5 本章小结	第25-27页
第三章基于词典的柬-汉双语LDA模型的构建方法	第27-35页
3.1 引言	第27-28页
3.2 柬汉双语LDA模型	第28-32页
3.2.1 柬汉词典的引入	第28-29页
3.2.2 KCB-LDA模型的构建	第29-30页
3.2.3 推导	第30-31页
3.2.4 新样本主题的推断	第31-32页
3.3 实验设计与结果分析	第32-34页
3.3.1 实验语料	第32页
3.3.2 实验设计与结果分析	第32-34页
3.4 本章小结	第34-35页
第四章基于改进层次聚类的可比语料获取方法研究	第35-45页
4.1 引言	第35-36页
4.2 融合主题和要素的双语文本相似度	第36-39页
4.2.1 双语文档的要素提取	第36-37页
4.2.2 融合主题和要素的文本相似性度量	第37-39页
4.3 基于改进型层次算法的文本聚类	第39-41页
4.3.1 层次型聚类常用算法	第39-40页
4.3.2 改进的层次聚类	第40-41页
4.4 实验与结果分析	第41-44页
4.4.1 实验语料	第41-42页
4.4.2 可比语料评价标准	第42-43页
4.4.3 实验结果与分析	第43-44页
4.5 本章小结	第44-45页
第五章总结和展望	第45-47页
5.1 总结	第45-46页
5.2 工作展望	第46-47页
致谢	第47-49页
参考文献	第49-55页
附录A 攻读硕士期间发表论文	第55-57页
附录B 攻读硕士期间参与项目	第57-59页
附录C 攻读硕士期间申请软件的著作权	第59页