| 摘要 | 第1-4页 |
| Abstract | 第4-7页 |
| 第一章 绪论 | 第7-11页 |
| ·研究的背景和意义 | 第7页 |
| ·研究现状和难点 | 第7-8页 |
| ·语言模型的研究现状 | 第7-8页 |
| ·语言模型面临的难点 | 第8页 |
| ·本文研究内容 | 第8-11页 |
| ·论文的研究思路 | 第8-9页 |
| ·论文的组织 | 第9-11页 |
| 第二章 分布式语言模型的建模框架 | 第11-19页 |
| ·Hadoop 分布式文件系统 HDFS | 第11-14页 |
| ·系统设计的前提和目标 | 第11-12页 |
| ·名称节点和数据节点 | 第12-14页 |
| ·Hadoop MapReduce 计算框架 | 第14-15页 |
| ·Hbase 数据库 | 第15-19页 |
| ·Hbase 概念视图 | 第15-16页 |
| ·Hbase 物理视图 | 第16-19页 |
| 第三章 统计语言模型和平滑算法 | 第19-29页 |
| ·统计语言模型概述 | 第19-20页 |
| ·现有的主要统计语言模型 | 第20-23页 |
| ·上下文无关模型 | 第20页 |
| ·N 元文法模型 | 第20-21页 |
| ·N-pos 模型 | 第21-22页 |
| ·基于决策树的语言模型 | 第22-23页 |
| ·动态、自适应、基于缓存的语言模型 | 第23页 |
| ·数据平滑技术 | 第23-24页 |
| ·常见的数据平滑技术 | 第24-28页 |
| ·加法平滑 | 第24页 |
| ·Good-Turing 平滑 | 第24-25页 |
| ·线性插值平滑 | 第25页 |
| ·回退平滑 | 第25-27页 |
| ·Kneser-Ney 平滑 | 第27页 |
| ·Witten-Bell 平滑 | 第27-28页 |
| ·数据平滑算法的评价标准 | 第28-29页 |
| 第四章 基于 MapReduce 的语言模型估算及评估方法 | 第29-49页 |
| ·生成单词数目 | 第30-32页 |
| ·统计出现 r 次的 n 元词组个数 Nr | 第32-33页 |
| ·Nr 的 Good-Turing 平滑 | 第33-35页 |
| ·计算 n 元词组的概率 | 第35-37页 |
| ·建立 Hbase 表 | 第37-42页 |
| ·基于 n 元词组的表结构 | 第37页 |
| ·基于当前词的表结构 | 第37-38页 |
| ·基于上下文的表结构 | 第38-39页 |
| ·基于 n/2 元词组的表结构 | 第39-40页 |
| ·基于整数的表结构 | 第40-42页 |
| ·直接查询 | 第42-44页 |
| ·缓存查询 | 第44-46页 |
| ·方法的评估 | 第46-49页 |
| ·建立语言模型的时间和空间 | 第47页 |
| ·语言模型的迷惑度比较 | 第47-49页 |
| 第五章 实验方案及结果分析 | 第49-59页 |
| ·实验数据 | 第49-50页 |
| ·N 元文法模型阶数 | 第50-53页 |
| ·各种表结构的数据对比 | 第53-59页 |
| 第六章 总结与展望 | 第59-61页 |
| ·实验总结 | 第59-60页 |
| ·未来工作展望 | 第60-61页 |
| 致谢 | 第61-63页 |
| 参考文献 | 第63-66页 |