首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

搜索引擎中文分词技术研究

摘要第1-5页
Abstract第5-9页
1 绪论第9-16页
   ·研究背景及意义第9-11页
   ·国内外研究现状第11-14页
     ·分词算法的理论研究第11-12页
     ·现有的中文分词系统第12-14页
   ·论文的主要工作第14-15页
   ·论文的组织结构第15-16页
2 相关理论和技术研究第16-28页
   ·常用的中文分词算法第16-22页
     ·基于字符串匹配的中文分词算法第16-19页
     ·基于统计的中文分词算法第19-20页
     ·基于理解的中文分词算法第20-21页
     ·基于路径的中文分词算法第21页
     ·基于语义的中文分词算法第21-22页
   ·常用的中文分词词典机制第22-26页
     ·基于整词二分的分词词典机制第22-23页
     ·基于TRIE 索引树的分词词典机制第23-24页
     ·基于逐字二分的分词词典机制第24-25页
     ·基于双字哈希的分词词典机制第25-26页
   ·中文分词技术的难点第26页
   ·中文分词系统的评价准则第26-27页
   ·本章小结第27-28页
3 中文分词技术的难点第28-36页
   ·歧义词处理第28-33页
     ·歧义词的分类第28-29页
     ·歧义词的检测第29-31页
     ·歧义词的消解第31-33页
     ·歧义词处理的困难第33页
   ·未登录词识别第33-35页
     ·未登录词识别的方法第34-35页
     ·未登录词识别的困难第35页
   ·本章小结第35-36页
4 一种改进的中文分词方法第36-48页
   ·基于最大逆向匹配的概率分词算法第36-39页
     ·词条概率的计算第36-38页
     ·最佳切分方式的选择第38页
     ·算法的实现流程第38-39页
   ·基于有限自动机的分词词典机制第39-42页
     ·词典机制的组织思想第40-41页
     ·词典机制的逻辑结构第41页
     ·分词词典的存储方式第41-42页
   ·歧义词的检测与切分第42-45页
     ·交集型歧义词的处理第43页
     ·组合型歧义词的处理第43-45页
   ·基于语料库的未登录词识别第45-47页
     ·分词碎片的抽取第45页
     ·碎片频率的计算第45-46页
     ·候选新词的筛选第46-47页
   ·本章小结第47-48页
5 中文分词原型系统的设计与实现第48-64页
   ·原型系统的设计第48-50页
     ·系统的结构设计第48-49页
     ·系统模块及功能第49-50页
     ·数据库的设计第50页
   ·原型系统的实现第50-55页
     ·系统框架及函数介绍第51-52页
     ·提取文本模块的实现第52-53页
     ·训练语料库模块的实现第53页
     ·分词处理模块的实现第53-54页
     ·性能测试模块的实现第54-55页
   ·运行结果与分析第55-59页
   ·性能测试与评价第59-62页
     ·存储空间第60页
     ·切分速度第60-62页
     ·准确率第62页
   ·本章小结第62-64页
6 结论与展望第64-66页
   ·主要结论第64-65页
   ·后续研究工作第65-66页
致谢第66-67页
参考文献第67-70页
个人简历、在学期间发表的学术论文及取得的研究成果第70页

论文共70页,点击 下载论文
上一篇:基于本体的材料腐蚀特征信息检索模型及应用技术研究
下一篇:基于改进混合蛙跳算法的网格任务调度算法研究