首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于机械切分和标注的中文分词研究

摘要第1-6页
Abstract第6-10页
插图索引第10-11页
附表索引第11-12页
第1章 引言第12-17页
   ·课题研究背景第12-13页
   ·中文分词的应用领域第13-15页
     ·信息检索第13页
     ·中文校对第13-14页
     ·机器翻译第14页
     ·中文智能输入法第14页
     ·文本挖掘第14页
     ·小结第14-15页
   ·本文的主要工作第15页
   ·论文的章节组织第15-17页
第2章 中文分词技术概述第17-28页
   ·中文分词的概念第17页
   ·中文分词系统的评测标准第17-18页
   ·各机构对中文分词的研究第18-19页
   ·中文分词的方法分类第19-22页
     ·基于字符串匹配的分词方法第19-20页
     ·基于统计的分词方法第20-22页
     ·基于语义理解的分词方法第22页
   ·中文分词系统的目标第22-23页
   ·中文分词的难点第23-26页
     ·分词规范第23-24页
     ·歧义切分问题第24-26页
     ·未登录词识别第26页
   ·小结第26-28页
第3章 机械切分与标注分词分析第28-34页
   ·机械切分方法第28-30页
     ·最大匹配法第28页
     ·反向最大匹配法第28页
     ·最小匹配法第28-29页
     ·全切分第29-30页
     ·N-最短路径法第30页
   ·基于字标注的分词方法第30-32页
     ·标注分词方法的原理第30-31页
     ·标注分词方法的优点第31-32页
   ·小结第32-34页
第4章 一种适用于搜索引擎的中文分词模型第34-46页
   ·搜索引擎进行中文分词的必要性第34-36页
     ·信息搜索的过程第34页
     ·倒排索引第34-35页
     ·中文分词对搜索引擎的重要性第35-36页
   ·搜索引擎的分词策略第36-38页
     ·搜索引擎的评价指标第36-37页
     ·搜索引擎中的长尾第37页
     ·适合搜索引擎的中文分词策略第37-38页
     ·适合搜索引擎的中文分词算法第38页
   ·一种适用于搜索引擎的中文分词模型RMT第38-41页
     ·一种适用于搜索引擎的中文分词模型RMT第38-39页
     ·RMT 的词典结构第39-40页
     ·RMT 的匹配算法第40-41页
     ·RMT 的标注算法第41页
     ·RMT 的词典合并第41页
   ·对RMT 合理性的验证第41-45页
     ·Lucene 介绍第41-43页
     ·对RMT 合理性的验证第43-45页
   ·小结第45-46页
第5章 由字构词方法中机器学习模型的优化第46-56页
   ·机器学习模型在由字构词方法中的应用第46页
   ·CRF 机器学习模型第46-48页
     ·序列标记问题第46-47页
     ·CRF 模型第47-48页
   ·CRF 的开源工具包第48-49页
   ·对CRF++的优化第49页
     ·增加对预定义Tag 的支持第49页
     ·将训练好的二进制模型导出为文本格式第49页
   ·优化后的实验结果及分析第49-55页
     ·实验环境及说明第49-54页
     ·模型训练第54页
     ·实验结果及分析第54-55页
   ·小结第55-56页
结论第56-58页
参考文献第58-63页
致谢第63-64页
附录 A 攻读学位期间所发表的学术论文目录第64页

论文共64页,点击 下载论文
上一篇:荧光粉NaCa0.5Al2B2O7:Eu2+,Ce3+和Na4Ca3(AlO210:Eu2+,Mn2+的发光特性研究
下一篇:利用UHV-STM研究Si(5 5 12)表面上In-addimer,Si-addimer相邻位置电子态密度的分布