首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于词典和词频分析的论坛语料未登录词识别研究

摘要第1-6页
Abstract第6-8页
第1章 绪论第8-14页
   ·研究背景与意义第8-9页
   ·研究现状第9-11页
     ·未登录词识别现状第9-10页
     ·语料库研究现状第10-11页
   ·研究内容第11-12页
   ·论文结构第12页
   ·本章小结第12-14页
第2章 未登录词相关理论与识别算法第14-24页
   ·基于词频统计的分词方法第14-17页
     ·互信息原理(Mutual Information)第15页
     ·T-测试原理(T-Test)第15-16页
     ·N元统计原理(N-Gram)第16-17页
   ·基于词库、字典匹配的分词方法第17-22页
     ·机械分词算法的分类第17页
     ·机械分词常用算法第17-19页
     ·机械分词的词典构造第19-22页
   ·基于知识理解的分词方法第22页
   ·三种常用分词方法的比较第22-23页
   ·本章小结第23-24页
第3章 基于论坛语料的未登录词识别算法设计第24-40页
   ·网络论坛语料库的选取第24-25页
   ·未登录词识别策略第25-32页
     ·高频共现词的统计第26-29页
     ·判定候选未登录词的CT算法第29-32页
   ·分词词典的结构设计第32-36页
     ·核心词典的设计第33-35页
     ·临时词典的设计第35-36页
     ·停用词典的设计第36页
   ·改进的正向最大匹配算法第36-37页
   ·本章小结第37-40页
第4章 系统设计与实现第40-52页
   ·语料采集模块第41-42页
   ·文档解析模块第42-43页
   ·语料库的构建第43-44页
   ·学习训练模块第44-46页
     ·文本语料预处理第44-45页
     ·词频统计第45-46页
   ·分词模块第46-50页
     ·分词词典加载第46-50页
     ·优化的正向最大匹配分词过程第50页
   ·本章小结第50-52页
第5章 性能分析第52-64页
   ·实验环境第52页
   ·性能指标第52-53页
   ·实验数据第53-55页
   ·实验结果第55-62页
     ·阈值R和参数λ的确定第55-57页
     ·系统测试一第57-60页
     ·系统测试二第60-61页
     ·算法分析第61-62页
   ·本章小结第62-64页
第6章 总结与展望第64-66页
   ·论文主要工作总结第64页
   ·展望以后的研究方向第64-66页
参考文献第66-70页
致谢第70-72页
攻读硕士学位期间公开发表的论文第72页

论文共72页,点击 下载论文
上一篇:基于轮廓的形状识别方法研究
下一篇:多头绒泡菌模型在网络系统构建与重构中的应用