基于语料特性的未知汉字识别

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第9-14页
1.1 研究对象介绍	第9-12页
1.1.1 替换解码介绍	第9-10页
1.1.2 表意语言	第10-12页
1.2 研究目标	第12-13页
1.3 论文结构与组织	第13-14页
第二章 n元语言模型与替换解码	第14-20页
2.1 n元语言模型	第14页
2.2 语言模型的估计	第14-15页
2.3 混乱度	第15-16页
2.4 参数的估计	第16-18页
2.4.1 线性插值法	第17-18页
2.5 n元语言模型在替换解码中的应用	第18-19页
2.5.1 基于n元语言模型的替换解码在本文的工作中的应用	第18-19页
2.6 小结	第19-20页
第三章替换解码与基于集束搜索的优化	第20-25页
3.1 组合爆炸	第20页
3.2 与本研究的关系	第20-21页
3.3 常见的解决方法	第21-23页
3.3.1 集束搜索	第21-22页
3.3.2 维特比算法	第22-23页
3.4 各方法的分析比较	第23页
3.5 选择及原因	第23页
3.6 具体实现的描述	第23-24页
3.7 小结	第24-25页
第四章中文字表示	第25-32页
4.1 字嵌入表示word embedding representation	第25-27页
4.2 如何构造字的表示	第27-30页
4.3 字表示在当前工作中的意义	第30-31页
4.4 加入字表示后的解码算法	第31页
4.5 小结	第31-32页
第五章中文字形信息与查找优化	第32-38页
5.1 汉字的字形特点	第32-33页
5.2 汉字的计算机编码	第33页
5.3 汉字的外码	第33-35页
5.3.1 四角号码	第33-34页
5.3.2 五笔字形	第34页
5.3.3 笔画编码	第34-35页
5.4 字形信息编码对本工作的作用	第35页
5.5 具体算法的改进	第35-37页
5.6 小结	第37-38页
第六章实验	第38-48页
6.1 实验预设	第38页
6.2 实验数据	第38-41页
6.2.1 语料	第39页
6.2.2 未知字的选取	第39-40页
6.2.3 束宽度	第40页
6.2.4 字形查询表	第40-41页
6.3 基准算法	第41页
6.4 实验结果	第41-43页
6.4.1 归一化折扣增益指标	第42-43页
6.5 集束搜索结果	第43-44页
6.6 实验结果分析	第44-47页
6.6.1 语言模型解码的作用	第46页
6.6.2 字表示的作用	第46页
6.6.3 字形信息的作用	第46-47页
6.7 小结	第47-48页
第七章结论	第48-50页
参考文献	第50-53页
致谢	第53页