基于分布式系统的N元文法模型研究

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-11页
·研究的背景和意义	第7页
·研究现状和难点	第7-8页
·语言模型的研究现状	第7-8页
·语言模型面临的难点	第8页
·本文研究内容	第8-11页
·论文的研究思路	第8-9页
·论文的组织	第9-11页
第二章分布式语言模型的建模框架	第11-19页
·Hadoop 分布式文件系统 HDFS	第11-14页
·系统设计的前提和目标	第11-12页
·名称节点和数据节点	第12-14页
·Hadoop MapReduce 计算框架	第14-15页
·Hbase 数据库	第15-19页
·Hbase 概念视图	第15-16页
·Hbase 物理视图	第16-19页
第三章统计语言模型和平滑算法	第19-29页
·统计语言模型概述	第19-20页
·现有的主要统计语言模型	第20-23页
·上下文无关模型	第20页
·N 元文法模型	第20-21页
·N-pos 模型	第21-22页
·基于决策树的语言模型	第22-23页
·动态、自适应、基于缓存的语言模型	第23页
·数据平滑技术	第23-24页
·常见的数据平滑技术	第24-28页
·加法平滑	第24页
·Good-Turing 平滑	第24-25页
·线性插值平滑	第25页
·回退平滑	第25-27页
·Kneser-Ney 平滑	第27页
·Witten-Bell 平滑	第27-28页
·数据平滑算法的评价标准	第28-29页
第四章基于 MapReduce 的语言模型估算及评估方法	第29-49页
·生成单词数目	第30-32页
·统计出现 r 次的 n 元词组个数 Nr	第32-33页
·Nr 的 Good-Turing 平滑	第33-35页
·计算 n 元词组的概率	第35-37页
·建立 Hbase 表	第37-42页
·基于 n 元词组的表结构	第37页
·基于当前词的表结构	第37-38页
·基于上下文的表结构	第38-39页
·基于 n/2 元词组的表结构	第39-40页
·基于整数的表结构	第40-42页
·直接查询	第42-44页
·缓存查询	第44-46页
·方法的评估	第46-49页
·建立语言模型的时间和空间	第47页
·语言模型的迷惑度比较	第47-49页
第五章实验方案及结果分析	第49-59页
·实验数据	第49-50页
·N 元文法模型阶数	第50-53页
·各种表结构的数据对比	第53-59页
第六章总结与展望	第59-61页
·实验总结	第59-60页
·未来工作展望	第60-61页
致谢	第61-63页
参考文献	第63-66页