面向非结构化文本大数据预处理中间件系统的设计与实现

摘要	第4-5页
Abstract	第5-6页
第1章绪论	第9-16页
1.1 课题来源	第9页
1.2 研究背景、目的和意义	第9-10页
1.3 研究现状综述	第10-14页
1.3.1 文本预处理技术	第11-12页
1.3.2 大数据挖掘技术	第12-14页
1.4 论文主要内容及组织结构	第14-16页
第2章分布式预处理中间件系统框架设计	第16-24页
2.1 分布式计算框架	第16-20页
2.1.1 Hadoop计算框架	第16-18页
2.1.2 Spark计算框架	第18-19页
2.1.3 问题描述	第19-20页
2.2 基于Hadoop的预处理中间件系统	第20-23页
2.2.1 整体设计	第21页
2.2.3 数据管理子系统	第21-22页
2.2.4 任务调度器	第22页
2.2.5 预处理算法库	第22-23页
2.3 本章小结	第23-24页
第3章基于Hbase的数据管理系统设计	第24-41页
3.1 Hbase构架	第24-26页
3.2 Hbase数据表Schema设计	第26-30页
3.2.1 Key-Value特性分析	第26-27页
3.2.2 Key-Value设计	第27-30页
3.3 数据管理系统框架设计	第30-31页
3.4 数据管理系统模块设计	第31-40页
3.4.1 数据库管理模块	第31-34页
3.4.2 键生成模块	第34-35页
3.4.3 数据写入模块	第35-36页
3.4.4 数据查询模块	第36-40页
3.4.5 数据删除模块	第40页
3.5 本章小结	第40-41页
第4章基于Spark的预处理算法库设计	第41-55页
4.1 分布式编程框架	第41-44页
4.1.1 传统MapReduce编程框架	第41-43页
4.1.2 Spark编程框架	第43-44页
4.2 预处理算法分布式化设计	第44-54页
4.2.1 JavaRDD功能概述	第44-45页
4.2.2 网页去噪功能的分布式化	第45-47页
4.2.3 中文分词功能的分布式化	第47-49页
4.2.4 去停用词功能的分布式化	第49-50页
4.2.5 特征选择功能的分布式化	第50-54页
4.3 本章小结	第54-55页
第5章系统实现与性能测试	第55-66页
5.1 实现环境及平台搭建	第55-57页
5.1.1 硬件支持	第55-56页
5.1.2 软件支持	第56页
5.1.3 网络环境	第56-57页
5.1.4 集群部署与参数配置	第57页
5.2 系统模块实现	第57-61页
5.2.1 数据管理系统实现	第57-60页
5.2.2 预处理算法库实现	第60-61页
5.3 系统测试与性能对比	第61-65页
5.3.1 单机与分布式速度对比测试	第61-62页
5.3.2 并行加速比测试	第62-64页
5.3.3 可扩展性测试	第64-65页
5.4 本章小结	第65-66页
第6章总结与展望	第66-68页
6.1 工作总结	第66页
6.2 未来展望	第66-68页
致谢	第68-69页
参考文献	第69-71页