基于统计与词典相结合的中文分词的研究与实现

摘要	第4-5页
ABSTRACT	第5页
第1章绪论	第9-16页
1.1 课题研究的背景与意义	第9-11页
1.2 国内外研究现状	第11-14页
1.2.1 国外研究现状	第11-12页
1.2.2 国内研究现状	第12-14页
1.3 本文工作内容和结构安排	第14-16页
第2章中文分词技术的研究	第16-30页
2.1 引言	第16页
2.2 基于字符串匹配的分词方法	第16页
2.3 基于理解的分词方法	第16-18页
2.4 基于统计方法的分词算法	第18-26页
2.4.1 一些常用的统计量	第18页
2.4.2 隐形马尔可夫模型	第18-21页
2.4.3 最大熵模型	第21-24页
2.4.4 条件随机场模型	第24-26页
2.5 中文分词中的主要困难和问题	第26-28页
2.5.1 分词的规范	第27页
2.5.2 中文分词中的歧义处理问题	第27-28页
2.5.3 中文分词中的未登录词识别问题	第28页
2.6 本章小结	第28-30页
第3章统计与词典相结合的中文分词方法	第30-45页
3.1 引言	第30页
3.2 基于Hash的词典组织结构	第30-31页
3.3 改进的机械分词方法	第31-32页
3.4 基于条件随机场的新词发现方法	第32-38页
3.4.1 特征选择与标记	第32-33页
3.4.2 全切分	第33-34页
3.4.3 确定阈值	第34-38页
3.5 新词中关于命名实体的识别	第38-41页
3.6 歧义切分的解决	第41-44页
3.6.1 t-测试的方法	第41-42页
3.6.2 歧义切分中的数量词识别问题	第42-44页
3.7 本章小结	第44-45页
第4章中文分词系统的实现	第45-59页
4.1 引言	第45页
4.2 系统要解决的问题	第45页
4.3 总体结构	第45-46页
4.4 学习模块	第46-48页
4.5 分词模块	第48-49页
4.6 实验和结果分析	第49-58页
4.6.1 实验工具和语料	第49-51页
4.6.2 实验评测的标准	第51页
4.6.3 新词发现实验	第51-55页
4.6.4 中文分词系统性能测试实验	第55-58页
4.7 本章小结	第58-59页
结论	第59-60页
参考文献	第60-67页
致谢	第67页