中文摘要 | 第5-6页 |
英文摘要 | 第6页 |
1 引言 | 第7-10页 |
1.1 自动分词是中文信息处理技术的基础工程 | 第7-8页 |
1.2 自动分词技术的重点和难点 | 第8页 |
1.3 自动分词系统及现代汉语通用分词系统(GPWS)的发展 | 第8-9页 |
1.4 本论文的内容 | 第9-10页 |
2 现代汉语通用分词系统中歧义切分技术 | 第10-19页 |
2.1 基本概念 | 第10-11页 |
2.2 前人的工作 | 第11-13页 |
2.2.1 规则方法 | 第11-12页 |
2.2.2 统计方法 | 第12页 |
2.2.3 歧义切分知识库 | 第12页 |
2.2.4 词语切分、词性标注、句法分析一体化方法 | 第12-13页 |
2.3 本文中采用的方法 | 第13-17页 |
2.3.1 交集型歧义字段的发现算法 | 第13页 |
2.3.2 大规模真实语料中交集型歧义字段统计分析 | 第13-14页 |
2.3.3 实用的消歧策略 | 第14-17页 |
2.3.4 测试结果 | 第17页 |
2.4 小结 | 第17-19页 |
3 现代汉语通用分词系统中专名识别技术 | 第19-31页 |
3.1 专名识别的任务和困难 | 第19-20页 |
3.1.1 专名识别的任务 | 第19页 |
3.1.2 专名识别的困难 | 第19-20页 |
3.2 前人的方法 | 第20页 |
3.3 一体化并行识别方法 | 第20-28页 |
3.3.1 数据准备与初始规则系统 | 第20-22页 |
3.3.2 歧义处理实用策略 | 第22-23页 |
3.3.3 基于专名特征属性集的分解策略——多种专名的并行识别(理论探讨:形式规则和算法) | 第23-27页 |
3.3.4 上下文语境特征、反面规则和临时专名表 | 第27-28页 |
3.4 专名识别系统整体框架 | 第28页 |
3.5 测试结果 | 第28-29页 |
3.6 小结 | 第29-31页 |
4 现代汉语自动分词系统通用性设计、评价与交互式分词系统 | 第31-39页 |
4.1 通用自动分词系统的困难 | 第31-35页 |
4.1.1 词表的问题 | 第31-32页 |
4.1.2 词信息的问题 | 第32页 |
4.1.3 词条颗粒度问题 | 第32-34页 |
4.1.4 分词功能问题 | 第34-35页 |
4.1.5 跨平台问题 | 第35页 |
4.2 现有的解决方案 | 第35-37页 |
4.2.1 分词底表、即插即用的用户自定义词表和词信息库组织 | 第35-36页 |
4.2.2 词语的结构化表示——词条颗粒度 | 第36-37页 |
4.2.3 任选和任意组合的分词功能(歧义切分、专名识别、数字、后缀短语识别等) | 第37页 |
4.2.4 系统的跨平台能力:UNICODE & ANSI C/C++ | 第37页 |
4.3 分词系统通用性评价 | 第37-38页 |
4.4 交互式分词系统 | 第38-39页 |
4.4.1 交互性对于通用分词系统的重要性 | 第38页 |
4.4.2 一种简单的交互性实现方法 | 第38-39页 |
5 结论 | 第39-40页 |
6 尚未解决的问题和将来的工作 | 第40-41页 |
参考文献 | 第41-43页 |
攻读学位期间发表的学术论文 | 第43-44页 |
致谢 | 第44页 |