首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向非结构化文本大数据预处理中间件系统的设计与实现

摘要第4-5页
Abstract第5-6页
第1章 绪论第9-16页
    1.1 课题来源第9页
    1.2 研究背景、目的和意义第9-10页
    1.3 研究现状综述第10-14页
        1.3.1 文本预处理技术第11-12页
        1.3.2 大数据挖掘技术第12-14页
    1.4 论文主要内容及组织结构第14-16页
第2章 分布式预处理中间件系统框架设计第16-24页
    2.1 分布式计算框架第16-20页
        2.1.1 Hadoop计算框架第16-18页
        2.1.2 Spark计算框架第18-19页
        2.1.3 问题描述第19-20页
    2.2 基于Hadoop的预处理中间件系统第20-23页
        2.2.1 整体设计第21页
        2.2.3 数据管理子系统第21-22页
        2.2.4 任务调度器第22页
        2.2.5 预处理算法库第22-23页
    2.3 本章小结第23-24页
第3章 基于Hbase的数据管理系统设计第24-41页
    3.1 Hbase构架第24-26页
    3.2 Hbase数据表Schema设计第26-30页
        3.2.1 Key-Value特性分析第26-27页
        3.2.2 Key-Value设计第27-30页
    3.3 数据管理系统框架设计第30-31页
    3.4 数据管理系统模块设计第31-40页
        3.4.1 数据库管理模块第31-34页
        3.4.2 键生成模块第34-35页
        3.4.3 数据写入模块第35-36页
        3.4.4 数据查询模块第36-40页
        3.4.5 数据删除模块第40页
    3.5 本章小结第40-41页
第4章 基于Spark的预处理算法库设计第41-55页
    4.1 分布式编程框架第41-44页
        4.1.1 传统MapReduce编程框架第41-43页
        4.1.2 Spark编程框架第43-44页
    4.2 预处理算法分布式化设计第44-54页
        4.2.1 JavaRDD功能概述第44-45页
        4.2.2 网页去噪功能的分布式化第45-47页
        4.2.3 中文分词功能的分布式化第47-49页
        4.2.4 去停用词功能的分布式化第49-50页
        4.2.5 特征选择功能的分布式化第50-54页
    4.3 本章小结第54-55页
第5章 系统实现与性能测试第55-66页
    5.1 实现环境及平台搭建第55-57页
        5.1.1 硬件支持第55-56页
        5.1.2 软件支持第56页
        5.1.3 网络环境第56-57页
        5.1.4 集群部署与参数配置第57页
    5.2 系统模块实现第57-61页
        5.2.1 数据管理系统实现第57-60页
        5.2.2 预处理算法库实现第60-61页
    5.3 系统测试与性能对比第61-65页
        5.3.1 单机与分布式速度对比测试第61-62页
        5.3.2 并行加速比测试第62-64页
        5.3.3 可扩展性测试第64-65页
    5.4 本章小结第65-66页
第6章 总结与展望第66-68页
    6.1 工作总结第66页
    6.2 未来展望第66-68页
致谢第68-69页
参考文献第69-71页

论文共71页,点击 下载论文
上一篇:基于用户兴趣特征变化的旅游路线个性化推荐技术研究
下一篇:基于条码技术的水产品追溯系统关键技术研究