摘要 | 第1-5页 |
Abstract | 第5-10页 |
1 绪论 | 第10-28页 |
·研究背景 | 第10-12页 |
·中文词法分析 | 第12-17页 |
·中文SIGHAN Bakeoff评测 | 第17-20页 |
·基于超函数的机器翻译 | 第20-23页 |
·机器翻译 | 第20-21页 |
·基于实例的机器翻译 | 第21页 |
·基于超函数的机器翻译 | 第21-23页 |
·本文的研究重点 | 第23-26页 |
·中文分词和词性标注 | 第24页 |
·未登录词的识别和词性标注 | 第24-25页 |
·基于扩展超函数的机器翻译 | 第25-26页 |
·本文的内容安排 | 第26-28页 |
2 统计机器学习方法 | 第28-49页 |
·隐马尔可夫模型 | 第28-33页 |
·N-gram模型 | 第28-29页 |
·数据平滑方法 | 第29-30页 |
·隐马尔可夫模型 | 第30-33页 |
·支持向量机 | 第33-36页 |
·支持向量机的最优分类超平面 | 第33-35页 |
·核函数 | 第35-36页 |
·多分类问题 | 第36页 |
·最大熵模型 | 第36-41页 |
·最大熵模型介绍 | 第36-39页 |
·最大熵原理的数学表示 | 第39-41页 |
·条件随机域模型 | 第41-48页 |
·半马尔可夫条件随机域模型 | 第45-46页 |
·隐藏变量动态条件随机域 | 第46-48页 |
·小结 | 第48-49页 |
3 中文分词及词性标注的研究 | 第49-90页 |
·基于最长次长匹配模型的中文分词和词性标注 | 第52-64页 |
·最长次长匹配中文分词模型 | 第53-54页 |
·分词与词性标注一体化统计模型 | 第54-56页 |
·未登录词的识别与处理 | 第56-59页 |
·算法实现 | 第59-60页 |
·实验及结果 | 第60-64页 |
·基于单字的分词和基于单词的词性标注 | 第64-78页 |
·利用基于单字的条件随机域模型进行分词 | 第65-70页 |
·基于词的最大熵模型进行词性标注 | 第70-73页 |
·实验及结果 | 第73-78页 |
·基于单字的条件随机域模型存在的问题及解决方案 | 第78页 |
·基于词格的中文词法分析 | 第78-88页 |
·基于词格的条件随机域模型 | 第81-84页 |
·中文词法分析中的特征和模板 | 第84-85页 |
·实验及结果 | 第85-88页 |
·小结 | 第88-90页 |
4 未登录词的识别及其词性标注的一体化 | 第90-108页 |
·隐藏变量半马尔可夫条件随机域模型 | 第90-95页 |
·基于Hidden Semi-CRF的未登录词识别和词性标注 | 第95-100页 |
·未登录词生成框架 | 第100-102页 |
·全局碎片特征 | 第102-103页 |
·未登录词识别和词性标注的特征和模板 | 第103-104页 |
·实验及结果 | 第104-108页 |
5 基于扩展超函数的中日机器翻译 | 第108-122页 |
·基于LDCRF模型的基本名词及动词短语识别 | 第108-111页 |
·基于扩展超函数的机器翻译 | 第111-118页 |
·面向句子及短语的扩展超函数 | 第112-115页 |
·面向扩展超函数的莱文斯汀距离 | 第115-118页 |
·实验及结果 | 第118-121页 |
·小结 | 第121-122页 |
6 结论与下一步研究工作 | 第122-124页 |
参考文献 | 第124-137页 |
攻读博士学位期间发表学术论文情况 | 第137-139页 |
致谢 | 第139-140页 |
作者简介 | 第140-142页 |