分布式环境下基于文本的海量数据挖掘

摘要	第1-5页
ABSTRACT	第5-10页
表格索引	第10-11页
插图索引	第11-12页
第一章绪论	第12-18页
·研究背景与意义	第12-13页
·国内外研究现状	第13-16页
·数据仓库搭建	第13-14页
·数据挖掘	第14-16页
·研究内容	第16-17页
·论文组织结构	第17页
·本章小结	第17-18页
第二章相关技术研究	第18-28页
·Apache Hadoop	第18-21页
·HDFS	第18-19页
·MapReduce	第19-21页
·MongoDB	第21-23页
·单节点数据库	第21-22页
·JSON	第22页
·分片机制	第22-23页
·MongoDB Cluster	第23页
·Apache Lucene	第23-26页
·基本过程	第24-25页
·评分	第25页
·Luke	第25-26页
·中文分词系统	第26-27页
·IKAnalyzer	第26-27页
·ICTCLAS	第27页
·本章小结	第27-28页
第三章基于 NoSQL 的文本数据仓库搭建	第28-44页
·传统数据仓库搭建方法及问题	第28-31页
·NoSQL 数据库的特点	第31-33页
·ETL 过程的并行实现方法	第33-35页
·文本化阶段	第33-34页
·聚合阶段	第34页
·数据加载阶段	第34-35页
·实验	第35-39页
·实验环境	第36页
·实验数据集	第36-37页
·实验步骤	第37-39页
·性能评估	第39-42页
·可扩展性	第39-40页
·效率	第40-41页
·异构性	第41-42页
·本章小结	第42-44页
第四章基于文本数据仓库的海量数据挖掘	第44-66页
·问题描述	第44-46页
·现有的解决方案	第46-48页
·传统数据挖掘算法的解决方案	第46-47页
·基于协同过滤的推荐系统	第47-48页
·基于 TF·IDF 的解决方案	第48-53页
·文本信息量评估	第48-51页
·微博用户推荐	第51-53页
·实验	第53-61页
·系统架构	第53-55页
·数据集获取	第55-57页
·建立索引	第57-58页
·计算 TF·IDF 值	第58-61页
·实验结果	第61-64页
·生成推荐列表	第61页
·基础推荐策略	第61页
·多维特征词组匹配	第61-63页
·用户最近时间加权	第63-64页
·实验结果说明	第64页
·本章小结	第64-66页
第五章总结与展望	第66-68页
·全文总结	第66页
·未来展望	第66-68页
参考文献	第68-72页
致谢	第72-73页
攻读学位期间发表的学术论文目录	第73-75页