搜索引擎中文分词技术研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-16页
·研究背景及意义	第9-11页
·国内外研究现状	第11-14页
·分词算法的理论研究	第11-12页
·现有的中文分词系统	第12-14页
·论文的主要工作	第14-15页
·论文的组织结构	第15-16页
2 相关理论和技术研究	第16-28页
·常用的中文分词算法	第16-22页
·基于字符串匹配的中文分词算法	第16-19页
·基于统计的中文分词算法	第19-20页
·基于理解的中文分词算法	第20-21页
·基于路径的中文分词算法	第21页
·基于语义的中文分词算法	第21-22页
·常用的中文分词词典机制	第22-26页
·基于整词二分的分词词典机制	第22-23页
·基于TRIE 索引树的分词词典机制	第23-24页
·基于逐字二分的分词词典机制	第24-25页
·基于双字哈希的分词词典机制	第25-26页
·中文分词技术的难点	第26页
·中文分词系统的评价准则	第26-27页
·本章小结	第27-28页
3 中文分词技术的难点	第28-36页
·歧义词处理	第28-33页
·歧义词的分类	第28-29页
·歧义词的检测	第29-31页
·歧义词的消解	第31-33页
·歧义词处理的困难	第33页
·未登录词识别	第33-35页
·未登录词识别的方法	第34-35页
·未登录词识别的困难	第35页
·本章小结	第35-36页
4 一种改进的中文分词方法	第36-48页
·基于最大逆向匹配的概率分词算法	第36-39页
·词条概率的计算	第36-38页
·最佳切分方式的选择	第38页
·算法的实现流程	第38-39页
·基于有限自动机的分词词典机制	第39-42页
·词典机制的组织思想	第40-41页
·词典机制的逻辑结构	第41页
·分词词典的存储方式	第41-42页
·歧义词的检测与切分	第42-45页
·交集型歧义词的处理	第43页
·组合型歧义词的处理	第43-45页
·基于语料库的未登录词识别	第45-47页
·分词碎片的抽取	第45页
·碎片频率的计算	第45-46页
·候选新词的筛选	第46-47页
·本章小结	第47-48页
5 中文分词原型系统的设计与实现	第48-64页
·原型系统的设计	第48-50页
·系统的结构设计	第48-49页
·系统模块及功能	第49-50页
·数据库的设计	第50页
·原型系统的实现	第50-55页
·系统框架及函数介绍	第51-52页
·提取文本模块的实现	第52-53页
·训练语料库模块的实现	第53页
·分词处理模块的实现	第53-54页
·性能测试模块的实现	第54-55页
·运行结果与分析	第55-59页
·性能测试与评价	第59-62页
·存储空间	第60页
·切分速度	第60-62页
·准确率	第62页
·本章小结	第62-64页
6 结论与展望	第64-66页
·主要结论	第64-65页
·后续研究工作	第65-66页
致谢	第66-67页
参考文献	第67-70页
个人简历、在学期间发表的学术论文及取得的研究成果	第70页