基于互联网海量语料的新词发现研究及中文分词系统改进

摘要	第1-4页
Abstract	第4-8页
第1章绪论	第8-22页
·研究背景及意义	第8-9页
·新词发现相关研究综述	第9-12页
·新词定义及其识别难点	第9-10页
·新词的研究领域	第10页
·新词识别的研究现状	第10-12页
·本文解决的新词识别问题	第12页
·新词词性推测相关研究综述	第12-14页
·新词词性推测的研究意义和目的	第12-13页
·新词词性推测的研究现状	第13-14页
·新词词性推测的技术难点分析	第14页
·分词系统相关研究综述	第14-19页
·中文分词的背景	第14-15页
·中文分词算法	第15-17页
·中文分词难点	第17-19页
·中文分词的应用	第19页
·本文的主要工作内容	第19-20页
·本文结构	第20-22页
第2章 PMI方法和PMI改进方法	第22-28页
·PMI方法定义及其定理	第22-23页
·PMI改进方法定义及其定理	第23-26页
·本章小结	第26-28页
第3章新词发现	第28-44页
·语料库预处理阶段	第28-30页
·统计1-n元字串串频	第30-31页
·新词抽取	第31-36页
·确定2元待扩展种子	第31-32页
·将2元待扩展种子扩展至2-n元候选新词	第32-34页
·规则过滤	第34-36页
·新词判定	第36页
·实验结果与分析	第36-42页
·实验数据	第36页
·实验结果	第36-40页
·结果分析	第40-42页
·本章小结	第42-44页
第4章新词词性推测	第44-50页
·语料库预处理阶段	第44-45页
·解析XML文件及统计句频	第45-46页
·抽取模板	第46-47页
·抽取新词词性	第47-48页
·词性抽取实验	第48-49页
·实验数据	第48页
·实验结果	第48页
·结果分析	第48-49页
·本章小结	第49-50页
第5章分词系统的改进	第50-56页
·改进分词系统的方法	第50页
·基于ICTCLAS系统测试	第50-54页
·测试数据	第51页
·测试方法	第51页
·测试结果	第51-53页
·测试结果分析	第53-54页
·本章小结	第54-56页
第6章结论与展望	第56-58页
·本文总结	第56-57页
·展望	第57-58页
参考文献	第58-62页
攻读学位期间取得的研究成果	第62-64页
致谢	第64-66页