面向日文输入法的混合语言模型的改进与实现
摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第9-17页 |
1.1 课题来源及背景 | 第9页 |
1.2 项目开发的目的与意义 | 第9-10页 |
1.3 与课题相关的国内外研究状况 | 第10-15页 |
1.3.1 输入法的概念以及技术特点 | 第10-12页 |
1.3.2 中文输入法的发展现状 | 第12-14页 |
1.3.3 日文输入法发展现状 | 第14-15页 |
1.4 本论文的主要研究内容 | 第15-17页 |
第2章 系统需求分析与概要设计 | 第17-23页 |
2.1 需求分析 | 第17-18页 |
2.1.1 输入法产品的业务需求 | 第17页 |
2.1.2 功能性需求 | 第17-18页 |
2.1.3 非功能性需求 | 第18页 |
2.2 系统框架概要设计 | 第18-20页 |
2.3 系统功能模块划分 | 第20-22页 |
2.3.1 文节切分 | 第20-21页 |
2.3.2 构建词图 | 第21-22页 |
2.3.3 解码算法 | 第22页 |
2.4 本章小结 | 第22-23页 |
第3章 语言模型的详细设计与实现 | 第23-42页 |
3.1 语言模型的概要设计 | 第24-26页 |
3.2 语言模型生成模块详细实现 | 第26-41页 |
3.2.1 切词工具的流程和调用实现 | 第26-28页 |
3.2.2 一元词条的共现统计的详细实现 | 第28-30页 |
3.2.3 一元词性统计的详细实现 | 第30-32页 |
3.2.4 二元词条语言模型的详细实现 | 第32-34页 |
3.2.5 二元词性模型的详细实现 | 第34-36页 |
3.2.6 读音模型的详细实现 | 第36-37页 |
3.2.7 Hadoop 程序设计 | 第37-41页 |
3.3 本章小结 | 第41-42页 |
第4章 混合语言模型的详细分析与改进实现 | 第42-62页 |
4.1 模型的详细分析 | 第42-49页 |
4.1.1 压缩过程中语言模型的信息丢失 | 第42-43页 |
4.1.2 N-pos 模型中聚类算法 | 第43-46页 |
4.1.3 N-pos 模型的粒度对输入法的影响 | 第46-47页 |
4.1.4 N-pos 联合模型的可比性分析 | 第47-49页 |
4.2 混合模型的改进方案 | 第49-53页 |
4.2.1 增加 2-gram 模型 | 第49-50页 |
4.2.2 Bigram 模型的挖掘 | 第50-53页 |
4.3 一种改进的 N-pos 模型 | 第53-57页 |
4.4 一种改进的读音模型 | 第57-61页 |
4.4.1 读音模型的规则挖掘 | 第57-60页 |
4.4.2 读音模型和已有模型的合并 | 第60-61页 |
4.5 本章小结 | 第61-62页 |
第5章 系统运行与测试 | 第62-72页 |
5.1 系统运行说明 | 第62-63页 |
5.2 系统功能测试 | 第63-67页 |
5.2.1 输入法音字转换功能测试 | 第63-64页 |
5.2.2 改进的 N-pos 语言模型测试 | 第64-65页 |
5.2.3 增加 Bigram 模型测试 | 第65-66页 |
5.2.4 改进的读音模型测试 | 第66-67页 |
5.3 语言模型的训练 | 第67页 |
5.4 测试集 | 第67-69页 |
5.4.1 标准测试集构建 | 第67-68页 |
5.4.2 人名测试集构建 | 第68-69页 |
5.5 实验结果 | 第69-70页 |
5.6 结果分析 | 第70-71页 |
5.7 本章小结 | 第71-72页 |
结论 | 第72-73页 |
参考文献 | 第73-78页 |
致谢 | 第78-79页 |
个人简历 | 第79页 |