面向统计机器翻译的语料处理与评价技术研究

摘要	第1-7页
Abstract	第7-11页
第1章绪论	第11-17页
·研究背景	第11-12页
·研究现状	第12-13页
·本文的主要思路和贡献	第13-14页
·章节安排	第14-17页
第2章统计机器翻译框架	第17-23页
·统计机器翻译平台的翻译流程介绍	第17-21页
·本章小结	第21-23页
第3章语料前(预)处理技术和实践	第23-33页
·预处理各个模块	第23页
·语料预处理流程介绍	第23-27页
·乱码处理模块	第23-24页
·半全角转换	第24页
·英文词串化和大小写转换	第24-25页
·中文分词	第25-26页
·双语句对过滤	第26页
·命名实体翻译替换	第26-27页
·面向专利翻译的语料预处理	第27-32页
·分词错误纠正	第27-28页
·专利号的识别翻译翻译和泛化	第28-29页
·公式串的识别翻译和泛化	第29页
·数量词识别翻译	第29-30页
·专业术语的处理	第30页
·可直译成分的处理	第30页
·不同预处理处理对机器翻译性能的影响	第30-32页
·预处理小结	第32-33页
第4章术语翻译资源的构建和利用	第33-37页
·基于网页的术语翻译资源获取	第33-34页
·从专业文献获取术语翻译资源	第34页
·NEUNLP双语翻译资源的整理和格式标准定义	第34页
·本章小结	第34-37页
第5章统计机器翻译语料质量评价和训练集的构建	第37-65页
·语料句对质量评价方法	第37-45页
·基于双语词典的句对翻译质量	第38页
·基于句对翻译概率的方法	第38-39页
·基于流畅度和忠诚度的句对质量打分	第39页
·实验和分析	第39-45页
·小结	第45页
·统计机器翻译训练语料的选取和高质量训练集的构建	第45-55页
·基于句对质量和覆盖度的方法	第45-55页
·CWMT2011中英任务训练语料的选取和训练集构建	第55-59页
·训练语料选取和训练集构建的过程	第56-57页
·实验与分析	第57-58页
·选取双语句对构建训练集考虑的因素	第58-59页
·给定测试集状况下训练集的优化策略初探	第59-63页
·基于检索技术选取与测试集相关句对优化训练集的方法	第59-61页
·基于语言模型技术选取与测试集相似句优化训练集的方法	第61-62页
·两种基于相似度优化构建语料方法的比较	第62-63页
·结论和相关总结	第63-65页
第6章工作总结与展望	第65-67页
参考文献	第67-71页
致谢	第71-73页
攻读硕士期间发表的论文及参与的项目	第73页