首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

中文分词技术在搜索引擎中的研究与应用

摘要第3-4页
ABSTRACT第4-5页
1 绪论第8-15页
    1.1 研究背景与意义第8-9页
    1.2 中文分词研究现状第9-10页
    1.3 搜索引擎概述第10-13页
        1.3.1 搜索引擎简介第10-11页
        1.3.2 搜索引擎发展历史及现状第11-13页
    1.4 本文研究内容第13-14页
    1.5 论文结构安排第14-15页
2 中文分词概述第15-28页
    2.1 中文分词词典机制第15-19页
        2.1.1 基于整词二分词典机制第15-16页
        2.1.2 基于Trie索引树词典机制第16-17页
        2.1.3 基于逐字二分词典机制第17-18页
        2.1.4 基于双字哈希的词典机制第18-19页
    2.2 中文分词主要方法第19-22页
        2.2.1 基于字符串匹配的分词算法第20-21页
        2.2.2 基于统计的分词算法第21-22页
        2.2.3 基于理解的分词算法第22页
    2.3 中文分词难点第22-27页
        2.3.1 分词歧义第22-24页
        2.3.2 新词识别第24页
        2.3.3 分词规范第24-25页
        2.3.4 歧义采集方法第25-27页
    2.4 本章小结第27-28页
3 最大匹配算法改进及词典优化第28-42页
    3.1 最大匹配算法分析及改进第28-34页
        3.1.1 最大匹配算法分析第29-30页
        3.1.2 最大匹配算法改进思路第30-32页
        3.1.3 改进后的正向最大匹配算法第32-34页
    3.2 双字哈希词长分组词典机制设计第34-36页
    3.3 基于双字哈希词长分组词典结构的最大匹配改进算法第36-39页
    3.4 分词歧义处理第39-41页
    3.5 本章小结第41-42页
4 改进算法在Lucene中的应用实现第42-55页
    4.1 搜索引擎开发平台Lucene第42-44页
    4.2 Lucene系统结构第44-46页
    4.3 Lucene索引和检索实现第46-47页
        4.3.1 Lucene索引实现第46-47页
        4.3.2 Lucene检索实现第47页
    4.4 中文分词模块框架设计第47-49页
    4.5 构造GaiJinAnalyzer分词器第49-52页
    4.6 优化的词典机制实现第52-53页
        4.6.1 词典的结构第52页
        4.6.2 词典的建立第52-53页
    4.7 基于改进算法的分词工具第53-54页
    4.8 本章小结第54-55页
5 实验结果及性能测试第55-61页
    5.1 算法测试环境及衡量标准第55页
    5.2 实验结果及性能比较第55-60页
        5.2.1 验证词典性能第57-58页
        5.2.2 分词算法比较第58-60页
    5.3 实验结果总结第60-61页
总结与展望第61-63页
参考文献第63-66页
致谢第66-67页
攻读学位期间发表的学术论文第67-69页

论文共69页,点击 下载论文
上一篇:定向凝固M(Zn,Sn,In,Ge)掺杂Bi0.5Sb1.5Te3合金组织与热电性能
下一篇:吡格列酮对小鼠多巴胺能神经元MPTP损伤的保护作用