摘要 | 第3-4页 |
ABSTRACT | 第4页 |
第一章 背景和现状 | 第7-10页 |
1.1 高阶纯相关模型 | 第7-8页 |
1.1.1 研究高阶纯相关模型的意义 | 第7页 |
1.1.2 关于词语关联的已有研究 | 第7-8页 |
1.2 信息几何简介与相关研究 | 第8-9页 |
1.3 论文结构 | 第9-10页 |
第二章 信息几何的数学基础 | 第10-18页 |
2.1 信息几何原理概述 | 第10-11页 |
2.2 信息几何应用于二阶随机变量的研究 | 第11-13页 |
2.3 到三阶及更高阶随机变量的扩展 | 第13-15页 |
2.4 高阶纯依赖谱系 | 第15-18页 |
第三章 基于信息几何的高阶纯相关提取 | 第18-26页 |
3.1 纯相关性的判断 | 第18-21页 |
3.1.1 二阶纯相关的基本算法 | 第18-19页 |
3.1.2 统计假设检验 | 第19-20页 |
3.1.3 到高阶情况的扩展 | 第20-21页 |
3.2 文章切分与滑动窗口 | 第21-22页 |
3.3 高阶纯相关的启发式增量算法 | 第22-26页 |
3.3.1 图模型角度的解释 | 第23-26页 |
第四章 高阶纯相关在文本处理任务中的应用 | 第26-46页 |
4.1 测试纯相关检验在稀疏文本数据下的准确性和稳定性 | 第26-27页 |
4.1.1 准确性测试 | 第26-27页 |
4.1.2 稳定性测试 | 第27页 |
4.2 在文本分类中的应用 | 第27-38页 |
4.2.1 扩展的向量空间模型(Extended Vector Space Model, EVSM) | 第27页 |
4.2.2 EVSM 应用于文本分类任务的流程 | 第27-28页 |
4.2.3 数据准备工作 | 第28-30页 |
4.2.4 实验结果及分析 | 第30-38页 |
4.3 在语言模型中的应用 | 第38-46页 |
4.3.1 语言模型简介 | 第38页 |
4.3.2 经典N-gram 模型 | 第38-41页 |
4.3.3 语言模型的评估 | 第41-42页 |
4.3.4 用高阶纯相关改进语言模型 | 第42-43页 |
4.3.5 实验结果及分析 | 第43-46页 |
第五章 总结与展望 | 第46-47页 |
参考文献 | 第47-50页 |
发表论文和科研情况说明 | 第50-51页 |
致谢 | 第51页 |