中文摘要 | 第1-6页 |
英文摘要 | 第6-7页 |
1. 绪论 | 第7-13页 |
1.1 自然语言处理 | 第7-8页 |
1.2 中文信息处理及对分词的需求 | 第8-9页 |
1.3 现有分词系统现状和弱点 | 第9-10页 |
1.4 新目标及改进 | 第10-12页 |
1.4.1 研究的目标 | 第10-11页 |
1.4.2 需要研究的内容 | 第11-12页 |
1.5 本论文的内容 | 第12-13页 |
2. 分词系统的数据准备 | 第13-33页 |
2.1 词表及标注的信息 | 第13-30页 |
2.1.1 无词表的分词和基于词表的分词 | 第13-17页 |
2.1.1.1 无词表分词(基于统计) | 第13-15页 |
2.1.1.2 基于词表(规则)的分词 | 第15-17页 |
2.1.1.3 无词表和使用词表的比较 | 第17页 |
2.1.2 词表的标准 | 第17-27页 |
2.1.2.1 词表的规模 | 第18-22页 |
2.1.2.2 词条的颗粒度与结构 | 第22-27页 |
2.1.3 通用分词系统用词表的构造 | 第27-29页 |
2.1.3.1 词条来源 | 第27页 |
2.1.3.2 二字结构工程的实施 | 第27页 |
2.1.3.3 二字结构工程的可行性 | 第27-28页 |
2.1.3.4 二字结构工程的研究和实施 | 第28-29页 |
2.1.4 词条的信息 | 第29-30页 |
2.2 语料库 | 第30-31页 |
2.3 应用系统数据 | 第31-33页 |
3. 通用分词系统的接口设计 | 第33-49页 |
3.1 通用分词系统接口的需求 | 第33-34页 |
3.2 分词系统的目标定位 | 第34页 |
3.3 设计原则 | 第34-36页 |
3.3.1 采用OMT(对象建模技术),划分模块和接口 | 第35页 |
3.3.2 对各种要求提供机制而不提供风格 | 第35页 |
3.3.3 采用二进制接口(插件),便于定制和扩充 | 第35-36页 |
3.4 系统设计 | 第36-49页 |
3.4.1 系统框架与模型 | 第36-37页 |
3.4.2 数据存储组织策略 | 第37-43页 |
3.4.2.1 词表的组织与存储 | 第37-40页 |
3.4.2.2 词条信息的组织与存储 | 第40-43页 |
3.4.3 分词结果的表示 | 第43-44页 |
3.4.4 词条标识符(Word ID)的进一步讨论 | 第44-45页 |
3.4.5 系统流程 | 第45-46页 |
3.4.6 应用程序开发接口(API) | 第46-49页 |
3.4.6.1 词表接口 | 第46-47页 |
3.4.6.2 词条信息接口 | 第47页 |
3.4.6.3 分词控制接口 | 第47-49页 |
4. 歧义切分的处理 | 第49-56页 |
4.1 歧义处理的方法 | 第50-53页 |
4.1.1 规则方法 | 第50-52页 |
4.1.1.1 元规则方法 | 第50-51页 |
4.1.1.2 补充规则方法 | 第51-52页 |
4.1.2 统计方法 | 第52-53页 |
4.2 本论文采用的方法 | 第53-56页 |
5. 尚未解决的问题 | 第56-57页 |
5.1 更好的交互性 | 第56页 |
5.2 组合型歧义的处理 | 第56-57页 |
6. 致谢 | 第57-58页 |
7. 参考文献 | 第58-59页 |