首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向语言学研究的大规模汉语生语料库检索工具CCRLT

中文摘要第1-6页
英文摘要第6-7页
第一章 引言第7-11页
 1.1 工作的意义第7页
 1.2 国内外相关的工作第7-8页
 1.3 CCRLT的解决方案第8-9页
 1.4 CCRLT的创新性工作第9-11页
第二章 字串表达式检索的算法与数据结构第11-29页
 2.1 概述第11页
 2.2 建字索引库第11-20页
  2.2.1 PAT_ARRAY数据结构的简介第12-15页
  2.2.2 建字索引库的核心算法和数据结构第15-17页
  2.2.3 CCRLT系统建字索引库的具体实现第17-20页
   2.2.3.1 算法与数据结构第18-20页
   2.2.3.2 算法的具体实现第20页
 2.3 字串表达式的检索第20-27页
  2.3.1 字串表达式第21-25页
   2.3.1.1 字串表达式的构成第21-23页
    2.3.1.1.1 原子项第21-23页
    2.3.1.1.2 字串表达式第23页
   2.3.1.2 表达式匹配过程的形式表示第23-25页
   2.3.1.3 字串表达式的例子第25页
  2.3.2 简单字符串检索的算法及数据结构第25-27页
 2.4 CCRLT系统的建索引库类型第27-28页
 2.5 检索结果的文本出处的获得第28页
 2.6 其它附加功能第28-29页
第三章 词检索的算法和数据结构第29-51页
 3.1 概述第29-30页
 3.2 用户词库的导入第30-34页
  3.2.1 CCRLT系统对用户词库中词的处理第30-32页
  3.2.2 词库导入主要算法及数据结构第32-34页
 3.3 建词索引库第34-42页
  3.3.1 建索引对象第34-35页
  3.3.2 建词索引过程中PAT_ARRAY结构的特点第35-36页
  3.3.3 建词索引库第36页
  3.3.3.1 对语料文本分词,生成分词映射文件第36-41页
  3.3.3.2 对规模不大的语料文本建索引的算法和数据结构第41-42页
  3.3.3.3 对规模太大的语料文本建索引的算法和数据结构第42页
 3.4 基于词索引的检索第42-48页
  3.4.1 词表达式第43页
  3.4.1.1 词表达式的构成第43-44页
  3.4.1.2 词表达式匹配过程及其形式表示第44-46页
   3.4.1.2.1 表达式的匹配过程第44页
   3.4.1.2.2 表达式的匹配过程的形式表示第44-46页
  3.4.2 词表达式的检索的算法及数据结构第46-48页
 3.5 CCRLT系统的词索引库类型第48-50页
 3.6 附加功能第50-51页
第四章 CCRLT系统的具体应用第51-53页
 4.1 CCRLT系统在语言学研究方面的应用第51页
 4.2 CCRLT系统在计算语言学方面的应用第51页
 4.3 应用实例第51-53页
第五章 今后的工作第53-55页
 5.1 建索引库的算法和数据结构的进一步优化第53页
 5.2 对表达式检索的算法和数据结构的进一步优化第53页
 5.3. 增强检索表达式的功能第53-54页
 5.4 CCRLT系统的自动统计功能的研究第54-55页
致 谢第55-56页
附 录第56-61页
 [附录1] 对“突然”进行字检索得到的100条匹配结果:第56-58页
 [附录2] 1亿6000万字的人民日报语料中,出现次数超过5000次的4字以上的字串第58-61页
[参考文献]第61页

论文共61页,点击 下载论文
上一篇:塑料封装球栅阵列温度循环可靠性研究
下一篇:Spread Slotted ALOHA接入系统模型分析与终端样机的实现