压缩全文自索引算法的研究
摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
符号对照表 | 第10页 |
缩略语对照表 | 第10-14页 |
第一章 绪论 | 第14-18页 |
1.1 研究背景及意义 | 第14-15页 |
1.2 研究现状 | 第15-16页 |
1.3 本文工作 | 第16-18页 |
第二章 预备知识 | 第18-26页 |
2.1 整数编码 | 第18页 |
2.2 文本的熵和可压缩性 | 第18-20页 |
2.3 后缀数组 | 第20页 |
2.4 RANK/SELECT操作 | 第20页 |
2.5 RANK操作典型实现 | 第20-22页 |
2.5.1 明文存储实现 | 第21-22页 |
2.5.2 熵压缩实现 | 第22页 |
2.6 BWT | 第22-23页 |
2.7 小波树 | 第23-24页 |
2.8 本章小结 | 第24-26页 |
第三章 SA的高效实现 | 第26-44页 |
3.1 SA构造算法综述 | 第26-27页 |
3.2 基于差分覆盖的DCV算法 | 第27-30页 |
3.2.1 差分覆盖的基本概念与性质 | 第27-28页 |
3.2.2 DC3算法简介 | 第28-29页 |
3.2.3 DCV算法的理念与实现 | 第29-30页 |
3.2.4 DCV算法的基本流程 | 第30页 |
3.3 DCV算法的关键细节 | 第30-39页 |
3.3.1 DC的构造 | 第30-31页 |
3.3.2 相关数据结构的定义 | 第31-33页 |
3.3.3 前v字符的三路归并快速排序 | 第33-34页 |
3.3.4 DC性质的作用 | 第34-36页 |
3.3.5 Copy理念的引入 | 第36-39页 |
3.4 DCV算法的完整描述 | 第39-40页 |
3.5 性能分析 | 第40页 |
3.6 实验结果与分析 | 第40-42页 |
3.7 本章小结 | 第42-44页 |
第四章 压缩后缀数组的实现 | 第44-66页 |
4.1 压缩后缀数组简介 | 第44-45页 |
4.2 压缩后缀数组结构 | 第45-47页 |
4.2.1 F数组的表示 | 第45-47页 |
4.2.2 字符频数统计 | 第47页 |
4.3 压缩后缀数组构造过程 | 第47-50页 |
4.3.1 预处理、构造F数组 | 第48页 |
4.3.2 采样SA&SA-1数组 | 第48-49页 |
4.3.3 编码F | 第49-50页 |
4.4 查找过程 | 第50-55页 |
4.4.1 加速F值获取 | 第51-53页 |
4.4.2 查找 | 第53-55页 |
4.5 恢复文本串 | 第55-57页 |
4.6 自适应策略 | 第57-58页 |
4.7 性能分析 | 第58-59页 |
4.8 实验结果与分析 | 第59-65页 |
4.8.1 参数的确定 | 第59-62页 |
4.8.2 Pizza&Chili数据实验结果 | 第62-64页 |
4.8.3 实际结果与文本经验熵的关系 | 第64-65页 |
4.8.4 Adaptive-CSA的性能 | 第65页 |
4.9 本章小结 | 第65-66页 |
第五章 FM-INDEX | 第66-80页 |
5.1 FM-INDEX | 第66-68页 |
5.2 数据感知的FM-INDEX | 第68-74页 |
5.2.1 动机 | 第68页 |
5.2.2 比特串索引结构 | 第68-70页 |
5.2.3 加速rank操作 | 第70-73页 |
5.2.4 数据感知的压缩 | 第73-74页 |
5.3 性能分析 | 第74页 |
5.4 实验结果与分析 | 第74-79页 |
5.5 本章小结 | 第79-80页 |
第六章 总结与展望 | 第80-82页 |
6.1 总结 | 第80页 |
6.2 展望 | 第80-82页 |
参考文献 | 第82-86页 |
致谢 | 第86-88页 |
作者简介 | 第88-89页 |