摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第8-13页 |
1.1 课题背景及研究的目的和意义 | 第8-9页 |
1.1.1 课题背景 | 第8页 |
1.1.2 课题研究目的及意义 | 第8-9页 |
1.2 国内外在该方向的研究现状及分析 | 第9-11页 |
1.2.1 国外研究现状 | 第9-11页 |
1.2.2 国内主要研究现状 | 第11页 |
1.3 本文的主要研究内容 | 第11-12页 |
1.4 本文的组织结构 | 第12-13页 |
第2章 非结构化文档数据一体化存储与检索架构的需求与设计 | 第13-21页 |
2.1 架构的需求与总体设计目标 | 第13-14页 |
2.1.1 非结构化文档数据存储检索需求 | 第13-14页 |
2.1.2 非结构化文档数据存储检索架构总体设计目标 | 第14页 |
2.2 基于HADOOP和ELASTICSEARCH的存储检索架构设计 | 第14-20页 |
2.2.1 底层数据存储平台的选择 | 第14-16页 |
2.2.2 上层数据检索平台的选择 | 第16-19页 |
2.2.3 系统架构的确定与设计 | 第19-20页 |
2.3 本章小结 | 第20-21页 |
第3章 非结构化文档数据的存储技术 | 第21-42页 |
3.1 基于数据块平衡的小文件合并算法 | 第21-28页 |
3.1.1 海量小文件问题及HDFS小文件存储缺陷 | 第21-24页 |
3.1.2 Tetris Merge小文件合并算法的设计与实现 | 第24-28页 |
3.2 非结构化文档数据同构化处理技术 | 第28-33页 |
3.2.1 非结构化文档同构化方案 | 第28-29页 |
3.2.2 非结构化文档同构化实现 | 第29-33页 |
3.3 功能及性能测试 | 第33-40页 |
3.3.1 HDFS小文件合并算法性能对比测试 | 第33-38页 |
3.3.2 非结构化文档数据同构化功能测试 | 第38-40页 |
3.4 本章小结 | 第40-42页 |
第4章 非结构化文档数据检索优化技术 | 第42-58页 |
4.1 基于互联网身份信息非结构化文档数据的检索优化 | 第42-49页 |
4.1.1 互联网身份信息及其数据特点 | 第42-43页 |
4.1.2 基于特征信息提取建立ElasticSearch过滤器的检索过程优化 | 第43-49页 |
4.2 基于系统参数调优的检索性能优化 | 第49-52页 |
4.2.1 操作系统参数调优 | 第50页 |
4.2.2 ElasticSearch系统参数调优 | 第50-51页 |
4.2.3 ElasticSearch索引优化接口 | 第51-52页 |
4.3 检索优化性能对比测试 | 第52-57页 |
4.3.1 基于过滤器的检索过程优化前后性能对比测试 | 第52-54页 |
4.3.2 系统参数优化前后检索性能对比测试 | 第54-57页 |
4.4 本章小结 | 第57-58页 |
第5章 非结构化文档数据一体化存储检索系统实现 | 第58-65页 |
5.1 系统总体架构设计 | 第58-59页 |
5.2 一体化存储检索用户界面设计与实现 | 第59-62页 |
5.2.1 用户交互界面设计 | 第59-60页 |
5.2.2 用户交互界面实现 | 第60-62页 |
5.3 系统整体功能测试 | 第62-64页 |
5.3.1 系统整体状态管理 | 第62-63页 |
5.3.2 数据检索 | 第63-64页 |
5.4 本章小结 | 第64-65页 |
结论 | 第65-66页 |
参考文献 | 第66-69页 |
攻读硕士学位期间发表的论文及其它成果 | 第69-71页 |
致谢 | 第71页 |