基于词典和词频分析的论坛语料未登录词识别研究

摘要	第1-6页
Abstract	第6-8页
第1章绪论	第8-14页
·研究背景与意义	第8-9页
·研究现状	第9-11页
·未登录词识别现状	第9-10页
·语料库研究现状	第10-11页
·研究内容	第11-12页
·论文结构	第12页
·本章小结	第12-14页
第2章未登录词相关理论与识别算法	第14-24页
·基于词频统计的分词方法	第14-17页
·互信息原理(Mutual Information)	第15页
·T-测试原理(T-Test)	第15-16页
·N元统计原理(N-Gram)	第16-17页
·基于词库、字典匹配的分词方法	第17-22页
·机械分词算法的分类	第17页
·机械分词常用算法	第17-19页
·机械分词的词典构造	第19-22页
·基于知识理解的分词方法	第22页
·三种常用分词方法的比较	第22-23页
·本章小结	第23-24页
第3章基于论坛语料的未登录词识别算法设计	第24-40页
·网络论坛语料库的选取	第24-25页
·未登录词识别策略	第25-32页
·高频共现词的统计	第26-29页
·判定候选未登录词的CT算法	第29-32页
·分词词典的结构设计	第32-36页
·核心词典的设计	第33-35页
·临时词典的设计	第35-36页
·停用词典的设计	第36页
·改进的正向最大匹配算法	第36-37页
·本章小结	第37-40页
第4章系统设计与实现	第40-52页
·语料采集模块	第41-42页
·文档解析模块	第42-43页
·语料库的构建	第43-44页
·学习训练模块	第44-46页
·文本语料预处理	第44-45页
·词频统计	第45-46页
·分词模块	第46-50页
·分词词典加载	第46-50页
·优化的正向最大匹配分词过程	第50页
·本章小结	第50-52页
第5章性能分析	第52-64页
·实验环境	第52页
·性能指标	第52-53页
·实验数据	第53-55页
·实验结果	第55-62页
·阈值R和参数λ的确定	第55-57页
·系统测试一	第57-60页
·系统测试二	第60-61页
·算法分析	第61-62页
·本章小结	第62-64页
第6章总结与展望	第64-66页
·论文主要工作总结	第64页
·展望以后的研究方向	第64-66页
参考文献	第66-70页
致谢	第70-72页
攻读硕士学位期间公开发表的论文	第72页