摘要 | 第1-6页 |
Abstract | 第6-7页 |
致谢 | 第7-10页 |
插图清单 | 第10-11页 |
表格清单 | 第11-12页 |
第一章 绪论 | 第12-15页 |
·自然语言理解的研究意义 | 第12-13页 |
·自然语言处理的研究领域 | 第13页 |
·本文的主要工作及组织结构 | 第13-15页 |
·本文的主要工作 | 第13页 |
·本文的组织结构 | 第13-15页 |
第二章 中文自动分词的理论基础 | 第15-23页 |
·中文分词的引入 | 第15页 |
·词的概念 | 第15页 |
·切分标准 | 第15-16页 |
·三种主要分词方法 | 第16-19页 |
·基于词典的分词 | 第16页 |
·基于统计的分词 | 第16-17页 |
·基于理解的分词 | 第17-18页 |
·三种分词方法的比较 | 第18-19页 |
·中文分词面临的问题 | 第19-21页 |
·分词的歧义处理 | 第19页 |
·分词的未登录词识别 | 第19-21页 |
·中文分词测评指标 | 第21页 |
·已经实现的几个中文分词系统 | 第21-22页 |
·本章小结 | 第22-23页 |
第三章 基于动态四字双向词典的中文分词 | 第23-33页 |
·已有的分词词典 | 第23-24页 |
·基于整词二分的分词词典机制 | 第23页 |
·基于 TRIE 索引树的分词词典机制 | 第23页 |
·基于逐字二分的分词词典机制 | 第23页 |
·基于双字哈希机制的词典 | 第23-24页 |
·问题分析 | 第24-25页 |
·查询效率方面 | 第24页 |
·词典结构方面 | 第24页 |
·词典实用性方面 | 第24-25页 |
·Memcached 概述 | 第25页 |
·词典的结构设计 | 第25-27页 |
·原始词典 | 第25页 |
·存储于数据库的四字词典 | 第25-27页 |
·Memcached 四字词典 | 第27页 |
·临时词的动态载入 | 第27-29页 |
·依据四字词典设计的最大匹配算法 | 第29-30页 |
·实验分析 | 第30-31页 |
·词汇平均查询次数 | 第30页 |
·理论分析 | 第30-31页 |
·实验结果 | 第31页 |
·本章小结 | 第31-33页 |
第四章 基于知网的贝叶斯中文人名识别 | 第33-42页 |
·朴素贝叶斯分类器(Naive Bayesian Classifier) | 第33-34页 |
·标注语料库 | 第34页 |
·知网(HowNet) | 第34-35页 |
·基于知网的贝叶斯中文人名识别模型 | 第35-39页 |
·假设条件 | 第35页 |
·贝叶斯人名识别模型 | 第35-36页 |
·知网语义修正模型 | 第36-39页 |
·基于知网的贝叶斯中文人名识别算法 | 第39-40页 |
·实验结果分析 | 第40-41页 |
·参数设置 | 第40页 |
·理论分析 | 第40页 |
·实验评价指标 | 第40-41页 |
·实验结果 | 第41页 |
·本章小结 | 第41-42页 |
第五章 结束语 | 第42-44页 |
·总结 | 第42页 |
·展望 | 第42-44页 |
·动态四字双向词典方面 | 第42页 |
·中文人名识别方面 | 第42-44页 |
参考文献 | 第44-48页 |
附录 1 中文自动分词系统 | 第48-55页 |
附录 2 攻读硕士学位期间参加研究的课题和发表的论文 | 第55-56页 |