词典与统计相结合的中文分词的研究
摘要 | 第1-5页 |
Abstract | 第5-7页 |
目录 | 第7-9页 |
第一章 绪论 | 第9-12页 |
·中文分词的必要性 | 第9-10页 |
·几个已经实现的分词系统 | 第10-11页 |
·本文的组织结构 | 第11-12页 |
第二章 中文分词技术的理论基础 | 第12-26页 |
·中文分词要解决的主要问题 | 第12-16页 |
·分词规范的问题 | 第12页 |
·分词歧义的处理问题 | 第12-14页 |
·未登录词的识别问题 | 第14-16页 |
·分词和理解的先后问题 | 第16页 |
·目前主要的分词方法 | 第16-24页 |
·基于统计的分词方法 | 第16-18页 |
·基于词典的分词方法 | 第18-20页 |
·机械分词词典的构造 | 第20-23页 |
·基于理解的分词方法 | 第23-24页 |
·几种分词方法的比较 | 第24页 |
·对分词系统性能的评价指标 | 第24-26页 |
第三章 基于统计和词典的中文分词算法的设计 | 第26-38页 |
·基于统计方法的未登录词识别 | 第26-27页 |
·词典的结构 | 第27-30页 |
·Hash词典 | 第27-29页 |
·其它词典 | 第29-30页 |
·文本中的数量词识别规则 | 第30-33页 |
·数词 | 第30-31页 |
·量词 | 第31页 |
·复合数量词 | 第31-32页 |
·数量词的出现特征 | 第32页 |
·数量词的识别算法 | 第32-33页 |
·改进的正向最大匹配分词方法 | 第33-38页 |
·长词优先的正向最大匹配方法 | 第33-35页 |
·改进的正向最大退一字匹配法 | 第35-38页 |
第四章 分词后的命名实体识别部分 | 第38-46页 |
·人名识别 | 第38-41页 |
·中文人名识别面临的主要困难 | 第39页 |
·姓氏分析 | 第39页 |
·人名上下文信息 | 第39-40页 |
·潜在姓名的抽取 | 第40-41页 |
·地名识别 | 第41-42页 |
·中文地名识别的特点 | 第41页 |
·利用特征词识别中文地名 | 第41-42页 |
·机构名识别 | 第42-45页 |
·机构名称的语法性质 | 第42-43页 |
·机构名称的语义特性 | 第43-44页 |
·机构名的组织规律 | 第44-45页 |
·命名实体识别的效果 | 第45-46页 |
第五章 实验分析 | 第46-54页 |
·系统的整体结构 | 第46-47页 |
·实验过程 | 第47-52页 |
·实验结果分析 | 第52-53页 |
·综合实验分析 | 第53-54页 |
第六章 总结与展望 | 第54-55页 |
·全文总结 | 第54页 |
·未来工作展望 | 第54-55页 |
参考文献 | 第55-58页 |
致谢 | 第58-59页 |
攻读硕士研究生期间所发表的论文 | 第59页 |