中英文混合分词方法及应用研究
| 摘要 | 第1-5页 |
| Abstract | 第5-9页 |
| 1 引言 | 第9-12页 |
| ·研究背景及意义 | 第9-10页 |
| ·研究背景 | 第9-10页 |
| ·研究意义 | 第10页 |
| ·研究现状 | 第10-11页 |
| ·论文的组织 | 第11-12页 |
| 2 分词算法综述 | 第12-17页 |
| ·中文自动分词基本算法 | 第12-14页 |
| ·基于字符串匹配算法 | 第12-13页 |
| ·基于统计的方法 | 第13页 |
| ·基于理解的方法 | 第13-14页 |
| ·歧义处理 | 第14-15页 |
| ·歧义定义 | 第14页 |
| ·探测歧义 | 第14页 |
| ·消歧算法 | 第14-15页 |
| ·未登录词识别 | 第15-16页 |
| ·未登录词识别的方法 | 第15页 |
| ·未登录词识别的现状 | 第15-16页 |
| ·中文分词评价 | 第16-17页 |
| 3 中英文混合分词评价体系 | 第17-19页 |
| ·中英文混合使用现象原因 | 第17页 |
| ·中英文混合特点 | 第17-18页 |
| ·由引进英文而产生的歧义 | 第17页 |
| ·网络语言的大量使用 | 第17页 |
| ·由领域性产生的歧义 | 第17页 |
| ·缺失字母问题 | 第17-18页 |
| ·中英文混合分词评价体系 | 第18-19页 |
| ·增加词语纠错能力评价 | 第18页 |
| ·未登录词标准发生变化 | 第18-19页 |
| 4 中英文混合分词的算法实现 | 第19-40页 |
| ·常用的分词词典 | 第19-23页 |
| ·整词二分的分词词典机制 | 第19-21页 |
| ·TRIE 索引树的分词词典机制 | 第21-22页 |
| ·逐字二分的分词词典机制 | 第22-23页 |
| ·三种分词词典机制的实验结果 | 第23-24页 |
| ·本文采用的词典机制 | 第24-26页 |
| ·改进的词典机制 | 第25-26页 |
| ·词典的实现 | 第26-30页 |
| ·词典的构成 | 第26页 |
| ·词典定义 | 第26-27页 |
| ·加载基本词典 | 第27-29页 |
| ·加载停用词典和姓氏词典 | 第29-30页 |
| ·中英文混合分词算法 | 第30-35页 |
| ·初切分算法 | 第30-31页 |
| ·分词过程 | 第31-35页 |
| ·歧义处理 | 第35-38页 |
| ·中英文混合歧义形式 | 第35页 |
| ·歧义探测 | 第35-36页 |
| ·改进的消歧算法 | 第36-37页 |
| ·与消歧效果 | 第37-38页 |
| ·系统功能实现 | 第38-40页 |
| 5 中英文混合分词在中国风能信息中心的应用 | 第40-44页 |
| ·系统介绍 | 第40页 |
| ·分词、文本自动分类的实现 | 第40-44页 |
| ·技术类别 | 第40-41页 |
| ·文本自动归档 | 第41-44页 |
| 6 总结 | 第44-46页 |
| ·论文总结 | 第44页 |
| ·有待继续完善的工作 | 第44-46页 |
| 参考文献 | 第46-49页 |
| 在读期间发表的学术论文 | 第49-50页 |
| 作者简介 | 第50-51页 |
| 致谢 | 第51页 |