基于统计机器学习算法的汉语分词系统的研究

第一章绪论	第1-15页
·本文研究的背景及意义	第8-9页
·国内外研究现状	第9-13页
·汉语自动分词的研究现状	第9-11页
·汉语自动分词的难点	第11-13页
·本文的主要研究内容	第13-14页
·模型训练	第13页
·基于类的语言模型的汉语自动分词	第13-14页
·本文的研究成果	第14-15页
第二章研究平台的建立及描述	第15-19页
·研究平台的建立	第15-16页
·SRILM概述	第16-19页
第三章汉语自动分词	第19-34页
·汉语自动分词概述	第19-22页
·汉语自动分词的现实性和可行性	第19-20页
·汉语自动分词的性能评价	第20-22页
·统计语言模型	第22-30页
·N-gram模型	第22-25页
·HMM(Hidden Markov Model)模型	第25-26页
·参数估计与数据稀疏问题	第26-30页
·汉语自动分词基本算法	第30-34页
·基于词典的分词算法	第30-31页
·基于统计的分词算法	第31-32页
·混合的分词方法	第32-34页
第四章基于类的语言模型的汉语自动分词系统	第34-44页
·类的定义	第34-35页
·基于类的语言模型的形式化描述	第35-40页
·基于类的汉语自动分词系统的架构	第40-44页
·基于类的模型估计模块	第40-42页
·基于类的解码模块	第42-44页
第五章实验结果和分析	第44-56页
·测试指标	第44-45页
·数据集	第45-46页
·测试数据	第45页
·训练数据	第45-46页
·实验	第46-51页
·实验一:基于前向最大匹配的汉语自动分词	第46-47页
·实验二:基于词的3元模型的汉语自动分词	第47-48页
·实验三:基于类的语言模型的汉语自动分词	第48-50页
·在MET2的测试集上的结果	第50-51页
·分析与讨论	第51-56页
·类别错误	第52-53页
·边界错误	第53-55页
·歧义切分字段错误	第55-56页
第六章结论与展望	第56-58页
参考文献	第58-61页
致谢	第61页