中文统计自然语言处理隐马模型的研究
中文摘要 | 第4-5页 |
英文摘要 | 第5页 |
1 绪论 | 第9-14页 |
1.1 自然语言处理统计模型研究的现状 | 第9-11页 |
1.1.1 自然语言处理中的统计模型 | 第9-10页 |
1.1.2 国内外研究的现状 | 第10-11页 |
1.2 论文的选题及其研究意义 | 第11-12页 |
1.3 论文研究的主要内容 | 第12-13页 |
1.4 论文的章节安排 | 第13页 |
1.5 本章小结 | 第13-14页 |
2 中文自然语言处理概述 | 第14-23页 |
2.1 引言 | 第14页 |
2.2 自然语言处理 | 第14-20页 |
2.2.1 自然语言处理定义 | 第14-15页 |
2.2.2 自然语言处理的一般过程 | 第15-17页 |
2.2.3 自然语言处理的特殊困难 | 第17-20页 |
2.3 中文自然语言处理 | 第20-22页 |
2.4 本章小结 | 第22-23页 |
3 自然语言处理中的统计方法及隐马尔可夫模型 | 第23-36页 |
3.1 引言 | 第23页 |
3.2 统计自然语言处理 | 第23-29页 |
3.2.1 自然语言处理的特点 | 第23-24页 |
3.2.2 知识获取瓶颈 | 第24-25页 |
3.2.3 统计机器翻译应用举例 | 第25-27页 |
3.2.4 统计自然语言处理的其它应用 | 第27-29页 |
3.3 隐马尔可夫模型 | 第29-35页 |
3.3.1 隐马尔可夫统计语言模型概述 | 第29页 |
3.3.2 参数估值 | 第29-30页 |
3.3.3 模型的困惑度度量 | 第30-31页 |
3.3.4 模型的压缩 | 第31-33页 |
3.3.5 模型的平滑 | 第33-35页 |
3.4 本章小结 | 第35-36页 |
4 中文隐马尔可夫语言模型的实验研究 | 第36-48页 |
4.1 引言 | 第36页 |
4.2 词典和语料库分词 | 第36-37页 |
4.3 训练语料库 | 第37-40页 |
4.3.1 训练语料分段 | 第39页 |
4.3.2 语料单元评分 | 第39页 |
4.3.3 种子集合扩充 | 第39-40页 |
4.4 测试集 | 第40-41页 |
4.5 语言模型建模工具SLMWIN1.0 | 第41-43页 |
4.6 试验策略 | 第43-45页 |
4.6.1 不同压缩技术的实现 | 第43-44页 |
4.6.2 不同平滑技术的实现 | 第44-45页 |
4.7 比较结果 | 第45-47页 |
4.7.1 不同压缩技术的比较结果 | 第45-47页 |
4.7.2 不同平滑技术的比较结果 | 第47页 |
4.8 本章小结 | 第47-48页 |
5 改进的长距依存隐马尔可夫模型 | 第48-53页 |
5.1 引言 | 第48页 |
5.2 隐马尔可夫模型短距依存的局限 | 第48-49页 |
5.3 改进的模型---LP-TRIGRAM | 第49-51页 |
5.3.1 LP-Trigram模型的定义 | 第49-50页 |
5.3.2 LP-Trigram的参数平滑 | 第50页 |
5.3.3 LP-Trigram的参数量和压缩 | 第50页 |
5.3.4 Viterbi搜索算法的扩充 | 第50-51页 |
5.4 试验结果和讨论 | 第51-52页 |
5.5 小结 | 第52-53页 |
全文总结 | 第53-55页 |
致谢 | 第55-56页 |
参考文献 | 第56-57页 |