面向海量数据的云存储系统实现与应用研究

摘要	第1-4页
Abstract	第4-7页
1 绪论	第7-14页
·研究背景及意义	第7-10页
·网络时代的数据挑战	第7页
·大数据时代的知识挑战	第7-8页
·应对数据和知识的双重挑战	第8-10页
·国内外研究现状	第10-13页
·本文目录组织	第13-14页
2 本文系统需求与架构	第14-18页
·从数据获取知识的迫切需求	第14-16页
·实现从海量数据到知识的三层架构	第16-18页
3 海量数据存储子系统	第18-29页
·存储子系统架构	第18-19页
·用户管理模块	第19-20页
·文件存储管理模块	第20-29页
·分布式文件系统介绍	第20-21页
·HDFS简介	第21-22页
·GlusterFS简介	第22-23页
·GlusterFS服务端	第23-26页
·GlusterFS客户端	第26-29页
4 海量信息检索子系统	第29-40页
·检索子系统架构	第29页
·信息收集模块	第29-32页
·网络爬虫概述	第29-30页
·Nutch简介	第30-31页
·Nutch爬虫运行流程	第31-32页
·信息索引模块	第32-35页
·Nutch索引过程	第32-33页
·Nutch抓取结果分析	第33-35页
·信息查询模块	第35-40页
·Lucene索引文件简介	第36-37页
·倒排索引原理简介	第37-38页
·Nutch搜索	第38-40页
5 海量知识挖掘子系统	第40-52页
·数据挖掘概述	第40-41页
·文本聚类	第41-45页
·中文分词	第42页
·文本表示模型	第42-44页
·文本相似度计算	第44-45页
·聚类算法K-means	第45-52页
·K-means算法流程	第45-46页
·MapReduce编程模型	第46-49页
·Mahout Kmeans算法实现	第49-52页
6 实验与分析	第52-64页
·实验流程设计	第52-53页
·实验平台搭建	第53-59页
·GlusterFS集群搭建	第53-54页
·Hadoop集群搭建	第54-56页
·Nutch环境搭建	第56-58页
·Mahout环境搭建	第58-59页
·实验结果展示	第59-64页
7 总结与展望	第64-66页
致谢	第66-67页
参考文献	第67-69页