现代汉语通用分词系统的技术与实现

中文摘要	第5-6页
英文摘要	第6页
1 引言	第7-10页
1．1 自动分词是中文信息处理技术的基础工程	第7-8页
1．2 自动分词技术的重点和难点	第8页
1．3 自动分词系统及现代汉语通用分词系统（GPWS）的发展	第8-9页
1．4 本论文的内容	第9-10页
2 现代汉语通用分词系统中歧义切分技术	第10-19页
2．1 基本概念	第10-11页
2．2 前人的工作	第11-13页
2．2．1 规则方法	第11-12页
2．2．2 统计方法	第12页
2．2．3 歧义切分知识库	第12页
2．2．4 词语切分、词性标注、句法分析一体化方法	第12-13页
2．3 本文中采用的方法	第13-17页
2．3．1 交集型歧义字段的发现算法	第13页
2．3．2 大规模真实语料中交集型歧义字段统计分析	第13-14页
2．3．3 实用的消歧策略	第14-17页
2．3．4 测试结果	第17页
2．4 小结	第17-19页
3 现代汉语通用分词系统中专名识别技术	第19-31页
3．1 专名识别的任务和困难	第19-20页
3．1．1 专名识别的任务	第19页
3．1．2 专名识别的困难	第19-20页
3．2 前人的方法	第20页
3．3 一体化并行识别方法	第20-28页
3．3．1 数据准备与初始规则系统	第20-22页
3．3．2 歧义处理实用策略	第22-23页
3．3．3 基于专名特征属性集的分解策略——多种专名的并行识别（理论探讨：形式规则和算法）	第23-27页
3．3．4 上下文语境特征、反面规则和临时专名表	第27-28页
3．4 专名识别系统整体框架	第28页
3．5 测试结果	第28-29页
3．6 小结	第29-31页
4 现代汉语自动分词系统通用性设计、评价与交互式分词系统	第31-39页
4．1 通用自动分词系统的困难	第31-35页
4．1．1 词表的问题	第31-32页
4．1．2 词信息的问题	第32页
4．1．3 词条颗粒度问题	第32-34页
4．1．4 分词功能问题	第34-35页
4．1．5 跨平台问题	第35页
4．2 现有的解决方案	第35-37页
4．2．1 分词底表、即插即用的用户自定义词表和词信息库组织	第35-36页
4．2．2 词语的结构化表示——词条颗粒度	第36-37页
4．2．3 任选和任意组合的分词功能（歧义切分、专名识别、数字、后缀短语识别等）	第37页
4．2．4 系统的跨平台能力：UNICODE & ANSI C／C++	第37页
4．3 分词系统通用性评价	第37-38页
4．4 交互式分词系统	第38-39页
4．4．1 交互性对于通用分词系统的重要性	第38页
4．4．2 一种简单的交互性实现方法	第38-39页
5 结论	第39-40页
6 尚未解决的问题和将来的工作	第40-41页
参考文献	第41-43页
攻读学位期间发表的学术论文	第43-44页
致谢	第44页