中文摘要 | 第1-6页 |
英文摘要 | 第6-7页 |
第一章 引言 | 第7-11页 |
1.1 工作的意义 | 第7页 |
1.2 国内外相关的工作 | 第7-8页 |
1.3 CCRLT的解决方案 | 第8-9页 |
1.4 CCRLT的创新性工作 | 第9-11页 |
第二章 字串表达式检索的算法与数据结构 | 第11-29页 |
2.1 概述 | 第11页 |
2.2 建字索引库 | 第11-20页 |
2.2.1 PAT_ARRAY数据结构的简介 | 第12-15页 |
2.2.2 建字索引库的核心算法和数据结构 | 第15-17页 |
2.2.3 CCRLT系统建字索引库的具体实现 | 第17-20页 |
2.2.3.1 算法与数据结构 | 第18-20页 |
2.2.3.2 算法的具体实现 | 第20页 |
2.3 字串表达式的检索 | 第20-27页 |
2.3.1 字串表达式 | 第21-25页 |
2.3.1.1 字串表达式的构成 | 第21-23页 |
2.3.1.1.1 原子项 | 第21-23页 |
2.3.1.1.2 字串表达式 | 第23页 |
2.3.1.2 表达式匹配过程的形式表示 | 第23-25页 |
2.3.1.3 字串表达式的例子 | 第25页 |
2.3.2 简单字符串检索的算法及数据结构 | 第25-27页 |
2.4 CCRLT系统的建索引库类型 | 第27-28页 |
2.5 检索结果的文本出处的获得 | 第28页 |
2.6 其它附加功能 | 第28-29页 |
第三章 词检索的算法和数据结构 | 第29-51页 |
3.1 概述 | 第29-30页 |
3.2 用户词库的导入 | 第30-34页 |
3.2.1 CCRLT系统对用户词库中词的处理 | 第30-32页 |
3.2.2 词库导入主要算法及数据结构 | 第32-34页 |
3.3 建词索引库 | 第34-42页 |
3.3.1 建索引对象 | 第34-35页 |
3.3.2 建词索引过程中PAT_ARRAY结构的特点 | 第35-36页 |
3.3.3 建词索引库 | 第36页 |
3.3.3.1 对语料文本分词,生成分词映射文件 | 第36-41页 |
3.3.3.2 对规模不大的语料文本建索引的算法和数据结构 | 第41-42页 |
3.3.3.3 对规模太大的语料文本建索引的算法和数据结构 | 第42页 |
3.4 基于词索引的检索 | 第42-48页 |
3.4.1 词表达式 | 第43页 |
3.4.1.1 词表达式的构成 | 第43-44页 |
3.4.1.2 词表达式匹配过程及其形式表示 | 第44-46页 |
3.4.1.2.1 表达式的匹配过程 | 第44页 |
3.4.1.2.2 表达式的匹配过程的形式表示 | 第44-46页 |
3.4.2 词表达式的检索的算法及数据结构 | 第46-48页 |
3.5 CCRLT系统的词索引库类型 | 第48-50页 |
3.6 附加功能 | 第50-51页 |
第四章 CCRLT系统的具体应用 | 第51-53页 |
4.1 CCRLT系统在语言学研究方面的应用 | 第51页 |
4.2 CCRLT系统在计算语言学方面的应用 | 第51页 |
4.3 应用实例 | 第51-53页 |
第五章 今后的工作 | 第53-55页 |
5.1 建索引库的算法和数据结构的进一步优化 | 第53页 |
5.2 对表达式检索的算法和数据结构的进一步优化 | 第53页 |
5.3. 增强检索表达式的功能 | 第53-54页 |
5.4 CCRLT系统的自动统计功能的研究 | 第54-55页 |
致 谢 | 第55-56页 |
附 录 | 第56-61页 |
[附录1] 对“突然”进行字检索得到的100条匹配结果: | 第56-58页 |
[附录2] 1亿6000万字的人民日报语料中,出现次数超过5000次的4字以上的字串 | 第58-61页 |
[参考文献] | 第61页 |