基于大规模语料的汉语搭配自动抽取研究

摘要	第8-10页
ABSTRACT	第10-11页
第一章绪论	第12-22页
1.1 研究目的和意义	第12-13页
1.2 国内外相关研究综述	第13-19页
1.2.1 词语搭配的理论	第13-16页
1.2.2 词语搭配获取的研究	第16-19页
1.3 本文的研究方法和技术路线	第19-22页
1.3.1 研究方法	第19页
1.3.2 技术路线	第19-22页
第二章搭配抽取的理论基础及相关技术、资源	第22-32页
2.1 搭配抽取的统计方法	第22-27页
2.1.1 词频	第22页
2.1.2 均值和方差	第22-23页
2.1.3 互信息及改进	第23-24页
2.1.4 假设检验	第24-26页
2.1.5 其他方法	第26-27页
2.2 Hadoop平台概述	第27-30页
2.2.1 HDFS分布式文件系统	第27-28页
2.2.2 HDFS数据组织	第28-29页
2.2.3 MapReduce计算流程	第29页
2.2.4 MapReduce框架结构	第29-30页
2.3 语料库资源	第30-32页
第三章基于后缀数组的搭配抽取算法与实现	第32-52页
3.1 N元语法	第32-33页
3.2 后缀数组	第33-38页
3.2.1 相关定义	第33-34页
3.2.2 增强后缀数组	第34-35页
3.2.3 后缀数组与LCP数组的构建	第35-38页
3.3 候选搭配获取	第38页
3.4 中文字符串快速排序算法	第38-44页
3.4.1 基数排序简介	第39页
3.4.2 中文字符到数字的转换	第39-40页
3.4.3 改进的短字符串快速排序算法	第40-41页
3.4.4 改进的长字符串快速排序算法	第41-42页
3.4.5 中文字符串快速排序算法实验	第42-44页
3.5 基于多线程的大规模语料并行处理	第44-46页
3.5.1 语料分块	第44-45页
3.5.2 多线程并行处理	第45页
3.5.3 多线程实验	第45-46页
3.6 子串归并	第46-52页
3.6.1 子串归并算法	第46-48页
3.6.2 子串归并实验	第48-52页
第四章基于Hadoop的并行搭配抽取算法与实现	第52-66页
4.1 基于Hadoop的搭配抽取可行性分析	第52-54页
4.1.1 搭配提取的可并行性分析	第52-53页
4.1.2 任务特点与Hadoop平台特性匹配分析	第53-54页
4.1.3 可扩展性分析	第54页
4.2 搭配抽取系统功能需求	第54-55页
4.3 MapReduce搭配抽取算法	第55-62页
4.3.1 算法思路	第55-57页
4.3.2 算法框架	第57-60页
4.3.3 算法实现	第60-62页
4.4 实验与讨论	第62-66页
4.4.1 实验平台	第62-63页
4.4.2 算法功能与性能测试	第63-64页
4.4.3 集群处理大规模语料实验	第64-66页
第五章搭配库构建及分析	第66-86页
5.1 搭配库的设计	第66-67页
5.2 候选搭配的抽取	第67-69页
5.2.1 连续型候选搭配的抽取	第67-68页
5.2.2 远距离候选搭配的抽取	第68-69页
5.3 统计方法对比	第69-73页
5.3.1 互信息分析	第69-70页
5.3.2 卡方检验分析	第70-71页
5.3.3 t-检验分析	第71-72页
5.3.4 对数似然比检验分析	第72-73页
5.4 多特征级联的搭配筛选	第73-82页
5.4.1 按词频特征过滤	第74-78页
5.4.2 语言知识的引入	第78-79页
5.4.3 统计数据的应用	第79-81页
5.4.4 远距离候选搭配筛选	第81-82页
5.5 搭配库评价	第82-86页
第六章总结与展望	第86-89页
6.1 所做的主要工作	第86-87页
6.2 本文的创新之处	第87-88页
6.3 存在的问题及后续工作	第88-89页
参考文献	第89-94页
致谢	第94页