| 摘要 | 第1-5页 |
| Abstract | 第5-11页 |
| 第1章 引言 | 第11-28页 |
| ·海量文件系统概述 | 第11-15页 |
| ·海量文件系统发展趋势 | 第11-12页 |
| ·日益严峻的管理挑战 | 第12-15页 |
| ·元数据查询概述 | 第15-24页 |
| ·元数据查询的分类和典型示例 | 第17-20页 |
| ·研究高效元数据查询方法之必要性 | 第20页 |
| ·元数据查询的特性 | 第20-21页 |
| ·元数据查询的困难和挑战 | 第21-24页 |
| ·本文的主要研究内容和主要贡献 | 第24-28页 |
| ·研究什么和不研究什么 | 第24-26页 |
| ·本文的主要工作 | 第26-27页 |
| ·论文的组织结构和各章内容简介 | 第27-28页 |
| 第2章 相关工作 | 第28-42页 |
| ·文件系统元数据和负载分析 | 第28-31页 |
| ·基于文件系统快照的元数据属性静态特征分析 | 第28-29页 |
| ·基于工作负载跟踪日志的文件系统行为动态特征分析 | 第29-31页 |
| ·元数据抓取与同步 | 第31-34页 |
| ·元数据抓取与同步问题之特点及其主要成因 | 第31-32页 |
| ·国内外主要解决方案及其局限性 | 第32-34页 |
| ·查询数据集之组织方式和索引技术 | 第34-37页 |
| ·面向结构化查询的关系型数据的数据组织方式 | 第34-36页 |
| ·面向非结构化查询的搜索引擎倒排索引技术 | 第36-37页 |
| ·现有的元数据查询解决方案 | 第37-40页 |
| ·基于遍历元数据查询 | 第37页 |
| ·桌面搜索和企业级搜索 | 第37-38页 |
| ·基于 KD-Tree 的 Spyglass | 第38-39页 |
| ·基于抽样的 Glance | 第39-40页 |
| ·相关工作小结 | 第40-42页 |
| 第3章 文件系统元数据特征分析及其变化模式 | 第42-55页 |
| ·本章概述 | 第42-43页 |
| ·数据集与分析方法 | 第43-45页 |
| ·数据集 | 第43页 |
| ·术语定义 | 第43-44页 |
| ·如何识别目录 | 第44-45页 |
| ·时间相关的属性 | 第45-49页 |
| ·变化频度 | 第45-47页 |
| ·变化间隔 | 第47-48页 |
| ·变化频度和变化间隔的相关性 | 第48-49页 |
| ·名字空间相关的属性 | 第49-52页 |
| ·空间局部性 | 第49-51页 |
| ·目录深度 | 第51-52页 |
| ·文件类型 | 第52-54页 |
| ·本章小结 | 第54-55页 |
| 第4章 基于选择性扫描的元数据抓取与同步方法SmartScan | 第55-77页 |
| ·本章概述 | 第55-56页 |
| ·动机和理念 | 第56-58页 |
| ·元数据变化特征 | 第58-63页 |
| ·数据收集 | 第58-59页 |
| ·文件系统的变化分类 | 第59-60页 |
| ·元数据变化的空间局部性 | 第60-61页 |
| ·元数据变化的时间局部性 | 第61-62页 |
| ·DTSD 对个别变化的预测 | 第62-63页 |
| ·SmartScan 系统的设计与实现 | 第63-66页 |
| ·设计概要 | 第63页 |
| ·体系结构 | 第63-64页 |
| ·扫描目录选择 | 第64-65页 |
| ·扫描策略 | 第65-66页 |
| ·原型系统实现 | 第66页 |
| ·实验方法与结果 | 第66-75页 |
| ·实验环境及设置 | 第67页 |
| ·时新性和覆盖率 | 第67-70页 |
| ·扫描性能 | 第70-71页 |
| ·查询结果偏差 | 第71-75页 |
| ·本章小结 | 第75-77页 |
| 第5章 基于文件系统注入的元数据变化跟踪方法FastDu | 第77-90页 |
| ·本章概述 | 第77-78页 |
| ·背景和动机 | 第78-80页 |
| ·FastDu 的典型应用场景目录统计信息收集 | 第78-79页 |
| ·主要设计选择 | 第79-80页 |
| ·FastDu 的设计和实现 | 第80-84页 |
| ·体系结构 | 第80-81页 |
| ·接口与核心数据结构 | 第81-82页 |
| ·预建数据库的延迟更新策略 | 第82-83页 |
| ·修改缓冲机制 | 第83-84页 |
| ·原型系统实现 | 第84页 |
| ·实验方法与结果 | 第84-88页 |
| ·实验环境及设置 | 第85页 |
| ·性能 | 第85-86页 |
| ·对文件系统性能的影响 | 第86-88页 |
| ·本章小结 | 第88-90页 |
| 第6章 元数据副本组织方式和并行扫描方法 | 第90-112页 |
| ·本章概述 | 第90-91页 |
| ·面向文件标准属性的编码方式 | 第91-95页 |
| ·属性值分布的近邻相似性和邻居差异编码 | 第91-94页 |
| ·属性值分布的不均衡性和文件大小变长编码 | 第94-95页 |
| ·元数据副本划分及其数据组织方式 | 第95-100页 |
| ·基于子森林的元数据副本划分 | 第95-97页 |
| ·MDFile 文件格式 | 第97-100页 |
| ·宽松深度优先递归遍历模型和并行扫描算法 | 第100-105页 |
| ·并行遍历模型的语义和优势 | 第100-101页 |
| ·算法的核心程序接口 | 第101-102页 |
| ·宽松深度优先并行扫描算法 | 第102-105页 |
| ·实验方法与结果 | 第105-110页 |
| ·实验环境及设置 | 第105-106页 |
| ·数据压缩比 | 第106页 |
| ·遍历性能 | 第106-109页 |
| ·算法可扩展性 | 第109-110页 |
| ·本章小结 | 第110-112页 |
| 第7章 可扩展的元数据查询原型系统FsInsight | 第112-127页 |
| ·本章概述 | 第112-113页 |
| ·FsInsight 系统 | 第113-115页 |
| ·实体化视图 | 第115-120页 |
| ·系统视图 | 第115-116页 |
| ·自定义视图 | 第116页 |
| ·视图的定义和实现 | 第116-120页 |
| ·实验方法与结果 | 第120-125页 |
| ·实验环境及设置 | 第121页 |
| ·查询性能 | 第121-124页 |
| ·实体化视图的更新性能 | 第124-125页 |
| ·本章小结 | 第125-127页 |
| 第8章 总结及进一步工作 | 第127-132页 |
| ·总结 | 第127-130页 |
| ·进一步工作 | 第130-132页 |
| 参考文献 | 第132-140页 |
| 致谢 | 第140-141页 |
| 个人简历、在学期间发表的学术论文与研究成果 | 第141-143页 |