0 引言 | 第1-15页 |
0.1 问题的提出 | 第7-10页 |
0.1.1 汉语自动分词的必要性 | 第7页 |
0.1.2 汉语自动分词中的困难 | 第7-10页 |
0.2 未登录词识别的研究现状 | 第10-12页 |
0.3 主要相关概念 | 第12-13页 |
0.4 本文的工作及其意义 | 第13-15页 |
1 中文姓名与机构名称的对比研究 | 第15-22页 |
1.1 中文姓名的特点和前后文规律 | 第15-17页 |
1.2 中文姓名的识别模型 | 第17-18页 |
1.3 中文机构名称的特点 | 第18-19页 |
1.4 中文机构名称与中文姓名的对比 | 第19-22页 |
1.4.1 构成特点上的对比 | 第19-20页 |
1.4.2 识别方法上的对比 | 第20-22页 |
2 统计为主、规则为辅的中文机构名称识别模型 | 第22-31页 |
2.1 识别范围的界定 | 第22-23页 |
2.2 机构名称识别的统计模型 | 第23-28页 |
2.2.1 机构名称特征词可信度模型 | 第24-25页 |
2.2.2 机构名称前部词可信度模型 | 第25-26页 |
2.2.3 机构名称构词可信度模型 | 第26-27页 |
2.2.4 单词构词可信度和双词接续可信度模型 | 第27-28页 |
2.3 机构名称识别的规则模型 | 第28-31页 |
3 系统设计和实现 | 第31-38页 |
3.1 研究机构名称识别的总体工作流程 | 第31-32页 |
3.2 算法描述 | 第32-38页 |
3.2.1 机构名称识别算法ORG_IDENTIFY | 第32-33页 |
3.2.2 建立潜在机构名链的算法CREATE_ORGLIST | 第33页 |
3.2.3 判断机构名称前词的算法描述IS_ORGFORE | 第33-36页 |
3.2.4 获得机构名称前部词可信度的算法描述GET_ORGPREX_FRQ | 第36-38页 |
4 实验结果与分析 | 第38-46页 |
4.1 实验结果 | 第38-39页 |
4.2 识别过程举例 | 第39-42页 |
4.3 测试结果分析 | 第42-43页 |
4.4 参数对识别结果的影响 | 第43-46页 |
5 展望 | 第46-48页 |
参考文献 | 第48-50页 |
致谢 | 第50-51页 |
附录 | 第51-54页 |
附录1 潜在机构名称的数据结构 | 第51页 |
附录2 中文机构名称识别所用到的参数 | 第51-54页 |