现代汉语分词系统通用性设计及切分歧义处理

中文摘要	第1-6页
英文摘要	第6-7页
1．绪论	第7-13页
1．1 自然语言处理	第7-8页
1．2 中文信息处理及对分词的需求	第8-9页
1．3 现有分词系统现状和弱点	第9-10页
1．4 新目标及改进	第10-12页
1．4．1 研究的目标	第10-11页
1．4．2 需要研究的内容	第11-12页
1．5 本论文的内容	第12-13页
2．分词系统的数据准备	第13-33页
2．1 词表及标注的信息	第13-30页
2．1．1 无词表的分词和基于词表的分词	第13-17页
2．1．1．1 无词表分词（基于统计）	第13-15页
2．1．1．2 基于词表（规则）的分词	第15-17页
2．1．1．3 无词表和使用词表的比较	第17页
2．1．2 词表的标准	第17-27页
2．1．2．1 词表的规模	第18-22页
2．1．2．2 词条的颗粒度与结构	第22-27页
2．1．3 通用分词系统用词表的构造	第27-29页
2．1．3．1 词条来源	第27页
2．1．3．2 二字结构工程的实施	第27页
2．1．3．3 二字结构工程的可行性	第27-28页
2．1．3．4 二字结构工程的研究和实施	第28-29页
2．1．4 词条的信息	第29-30页
2．2 语料库	第30-31页
2．3 应用系统数据	第31-33页
3．通用分词系统的接口设计	第33-49页
3．1 通用分词系统接口的需求	第33-34页
3．2 分词系统的目标定位	第34页
3．3 设计原则	第34-36页
3．3．1 采用OMT（对象建模技术），划分模块和接口	第35页
3．3．2 对各种要求提供机制而不提供风格	第35页
3．3．3 采用二进制接口（插件），便于定制和扩充	第35-36页
3．4 系统设计	第36-49页
3．4．1 系统框架与模型	第36-37页
3．4．2 数据存储组织策略	第37-43页
3．4．2．1 词表的组织与存储	第37-40页
3．4．2．2 词条信息的组织与存储	第40-43页
3．4．3 分词结果的表示	第43-44页
3．4．4 词条标识符（Word ID）的进一步讨论	第44-45页
3．4．5 系统流程	第45-46页
3．4．6 应用程序开发接口（API）	第46-49页
3．4．6．1 词表接口	第46-47页
3．4．6．2 词条信息接口	第47页
3．4．6．3 分词控制接口	第47-49页
4．歧义切分的处理	第49-56页
4．1 歧义处理的方法	第50-53页
4．1．1 规则方法	第50-52页
4．1．1．1 元规则方法	第50-51页
4．1．1．2 补充规则方法	第51-52页
4．1．2 统计方法	第52-53页
4．2 本论文采用的方法	第53-56页
5．尚未解决的问题	第56-57页
5．1 更好的交互性	第56页
5．2 组合型歧义的处理	第56-57页
6．致谢	第57-58页
7．参考文献	第58-59页