摘要 | 第4-5页 |
Abstract | 第5页 |
第一章 绪论 | 第12-18页 |
1.1 课题背景 | 第12-13页 |
1.2 理论依据和科学意义 | 第13-14页 |
1.3 国内外研究概况 | 第14-15页 |
1.4 论文研究内容和章节安排 | 第15-18页 |
第二章 分布式搜索相关简介 | 第18-26页 |
2.1 引言 | 第18页 |
2.2 Map/Reduce分布式架构技术 | 第18-21页 |
2.2.1 Map/Reduce编程模型 | 第18-19页 |
2.2.2 Hadoop平台简介 | 第19-21页 |
2.3 Lucene索引技术 | 第21-23页 |
2.3.1 Lucene的结构组织 | 第21-22页 |
2.3.2 Lucene的数据结构 | 第22-23页 |
2.3.3 Lucene的优缺点 | 第23页 |
2.4 分布式搜索的应用 | 第23-25页 |
2.4.1 分布式搜索引擎 | 第24页 |
2.4.2 分布式搜索在生物信息学中的应用 | 第24-25页 |
2.5 小结 | 第25-26页 |
第三章 学术论文搜索 | 第26-46页 |
3.1 引言 | 第26页 |
3.2 主要工作简介 | 第26-27页 |
3.3 单机搜索模型设计与实现 | 第27-37页 |
3.3.1 系统的整体架构 | 第27-29页 |
3.3.2 数据收集模块设计 | 第29-30页 |
3.3.3 数据分类模块设计 | 第30-34页 |
3.3.4 数据索引模块设计与优化 | 第34-36页 |
3.3.5 数据搜索模块设计与优化 | 第36-37页 |
3.4 分布式搜索模型设计与实现 | 第37-42页 |
3.4.1 系统的整体架构 | 第37-39页 |
3.4.2 分布式模式的索引前处理工作 | 第39页 |
3.4.3 分布式模式的索引和搜索工作 | 第39-42页 |
3.5 实验数据对比分析 | 第42-43页 |
3.6 小结 | 第43-46页 |
第四章 基于相似性算法的搜索 | 第46-54页 |
4.1 相似性存储介绍 | 第46-47页 |
4.2 相似性判别算法 | 第47-52页 |
4.2.1 Jaccard相似度和文档的Shingling | 第48页 |
4.2.2 最小哈希和最小哈希签名 | 第48-50页 |
4.2.3 局部敏感哈希(locality-sensitive-hashing,LSH) | 第50-52页 |
4.3 实验数据对比分析 | 第52-53页 |
4.4 小结 | 第53-54页 |
第五章 基因/蛋白质序列搜索 | 第54-82页 |
5.1 引言 | 第54-55页 |
5.2 主要工作简介 | 第55页 |
5.3 单机搜索模型设计与实现 | 第55-70页 |
5.3.1 系统的整体架构 | 第55-57页 |
5.3.2 数据索引系统 | 第57-62页 |
5.3.3 数据搜索系统 | 第62-70页 |
5.4 分布式搜索模型设计与实现 | 第70-80页 |
5.4.1 系统的整体架构 | 第70-72页 |
5.4.2 数据预处理系统 | 第72-73页 |
5.4.3 数据索引系统 | 第73-78页 |
5.4.4 数据搜索系统 | 第78-80页 |
5.5 实验数据对比分析 | 第80-81页 |
5.6 小结 | 第81-82页 |
第六章 总结与展望 | 第82-84页 |
参考文献 | 第84-86页 |
攻读学位期间发表的论文 | 第86-87页 |
致谢 | 第87页 |