首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

现代汉语分词系统通用性设计及切分歧义处理

中文摘要第1-6页
英文摘要第6-7页
1. 绪论第7-13页
 1.1 自然语言处理第7-8页
 1.2 中文信息处理及对分词的需求第8-9页
 1.3 现有分词系统现状和弱点第9-10页
 1.4 新目标及改进第10-12页
  1.4.1 研究的目标第10-11页
  1.4.2 需要研究的内容第11-12页
 1.5 本论文的内容第12-13页
2. 分词系统的数据准备第13-33页
 2.1 词表及标注的信息第13-30页
  2.1.1 无词表的分词和基于词表的分词第13-17页
   2.1.1.1 无词表分词(基于统计)第13-15页
   2.1.1.2 基于词表(规则)的分词第15-17页
   2.1.1.3 无词表和使用词表的比较第17页
  2.1.2 词表的标准第17-27页
   2.1.2.1 词表的规模第18-22页
   2.1.2.2 词条的颗粒度与结构第22-27页
  2.1.3 通用分词系统用词表的构造第27-29页
   2.1.3.1 词条来源第27页
   2.1.3.2 二字结构工程的实施第27页
   2.1.3.3 二字结构工程的可行性第27-28页
   2.1.3.4 二字结构工程的研究和实施第28-29页
  2.1.4 词条的信息第29-30页
 2.2 语料库第30-31页
 2.3 应用系统数据第31-33页
3. 通用分词系统的接口设计第33-49页
 3.1 通用分词系统接口的需求第33-34页
 3.2 分词系统的目标定位第34页
 3.3 设计原则第34-36页
  3.3.1 采用OMT(对象建模技术),划分模块和接口第35页
  3.3.2 对各种要求提供机制而不提供风格第35页
  3.3.3 采用二进制接口(插件),便于定制和扩充第35-36页
 3.4 系统设计第36-49页
  3.4.1 系统框架与模型第36-37页
  3.4.2 数据存储组织策略第37-43页
   3.4.2.1 词表的组织与存储第37-40页
   3.4.2.2 词条信息的组织与存储第40-43页
  3.4.3 分词结果的表示第43-44页
  3.4.4 词条标识符(Word ID)的进一步讨论第44-45页
  3.4.5 系统流程第45-46页
  3.4.6 应用程序开发接口(API)第46-49页
   3.4.6.1 词表接口第46-47页
   3.4.6.2 词条信息接口第47页
   3.4.6.3 分词控制接口第47-49页
4. 歧义切分的处理第49-56页
 4.1 歧义处理的方法第50-53页
  4.1.1 规则方法第50-52页
   4.1.1.1 元规则方法第50-51页
   4.1.1.2 补充规则方法第51-52页
  4.1.2 统计方法第52-53页
 4.2 本论文采用的方法第53-56页
5. 尚未解决的问题第56-57页
 5.1 更好的交互性第56页
 5.2 组合型歧义的处理第56-57页
6. 致谢第57-58页
7. 参考文献第58-59页

论文共59页,点击 下载论文
上一篇:现代汉语分词系统中专名识别的实用策略
下一篇:IP多目广播技术在互连网中的应用