首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

云计算环境下大规模文本挖掘并行处理技术研究

摘要第5-7页
Abstract第7-9页
第1章 绪论第17-28页
    1.1 研究背景及意义第17-19页
        1.1.1 大数据时代的数据规模第17-18页
        1.1.2 海量文本挖掘需求第18-19页
    1.2 国内外研究现状第19-23页
        1.2.1 大规模文本挖掘并行处理第19-21页
        1.2.2 云计算环境下的文本挖掘第21-23页
    1.3 面临的问题第23-24页
    1.4 本文研究工作第24-26页
    1.5 本文组织结构第26-28页
第2章 云计算环境下文本挖掘并行处理相关技术第28-38页
    2.1 MapReduce并行编程模型第28-31页
        2.1.1 MapReduce的概念第28-29页
        2.1.2 MapReduce特点分析第29-30页
        2.1.3 MapReduce运行原理第30-31页
    2.2 基于MapReduce的主流云计算平台第31-37页
        2.2.1 Hadoop云计算平台第32-33页
        2.2.2 Spark云计算平台第33-35页
        2.2.3 Flink云计算平台第35-37页
    2.3 基于云计算平台的文本挖掘并行架构第37-38页
第3章 基于Hadoop的条件随机场文本命名实体识别并行算法第38-59页
    3.1 引言第38-39页
    3.2 条件随机场模型第39-45页
        3.2.1 条件随机场第39-42页
        3.2.2 L-BFGS算法第42-43页
        3.2.3 Viterbi算法第43-45页
    3.3 MapReduce条件随机场模型第45-52页
        3.3.1 数据集的划分第45页
        3.3.2 MapReduce L-BFGS (MRLB)算法第45-47页
        3.3.3 MapReduce Viterbi (MRVtb)算法第47-48页
        3.3.4 条件随机场MapReduce框架第48-50页
        3.3.5 运行时间分析第50-52页
    3.4 实验评估第52-58页
        3.4.1 实验环境第52页
        3.4.2 准确性评估第52-53页
        3.4.3 改变数据集大小第53-56页
        3.4.4 改变Hadoop节点数第56页
        3.4.5 改变Hadoop参数第56-58页
    3.5 本章小结第58-59页
第4章 基于GFlink的条件随机场文本命名实体识别异构并行算法第59-76页
    4.1 引言第59-60页
    4.2 背景知识和系统架构第60-63页
        4.2.1 线性条件随机场第60-63页
        4.2.2 GFlink系统架构第63页
    4.3 实现异构分布式CRF算法的挑战第63-64页
    4.4 异构分布式CRF算法的实现第64-72页
        4.4.1 分布式并行算法设计第64-68页
        4.4.2 弹性数据划分策略第68-70页
        4.4.3 中间结果复用方法第70-72页
    4.5 实验评估第72-75页
        4.5.1 实验配置第72页
        4.5.2 准确性评估第72-73页
        4.5.3 不同迭代次数的运行时间第73页
        4.5.4 不同数据集大小的运行时间第73-75页
        4.5.5 不同节点的运行时间第75页
    4.6 本章小结第75-76页
第5章 基于Spark的微博热点话题检测并行聚类算法第76-96页
    5.1 引言第76-77页
    5.2 背景知识和问题定义第77-79页
        5.2.1 问题定义第77-78页
        5.2.2 通用框架第78-79页
        5.2.3 Apache Spark第79页
    5.3 两阶段的微-宏热点话题检测方法第79-86页
        5.3.1 两阶段的微-宏热点话题检测方法第79-80页
        5.3.2 文本选择第80-82页
        5.3.3 话题选择第82-83页
        5.3.4 细粒度与粗粒度相似性计算第83-86页
    5.4 TMHTD算法的Spark实现第86-90页
        5.4.1 数据划分第87页
        5.4.2 TMHTD算法的并行过程第87-90页
    5.5 实验评估第90-95页
        5.5.1 实验设置和数据集第90页
        5.5.2 准确性评估第90-92页
        5.5.3 性能评估第92-95页
    5.6 本章小结第95-96页
第6章 面向文本挖掘的弹性云平台并行资源高效管理第96-115页
    6.1 引言第96-97页
    6.2 云弹性定义第97-101页
        6.2.1 概念和预备知识第97-98页
        6.2.2 弹性定义第98-99页
        6.2.3 弹性实例第99页
        6.2.4 与弹性相关的属性第99-101页
    6.3 面向文本挖掘的云弹性测量模型第101-107页
        6.3.1 基于文本挖掘过程的排队论模型第101-103页
        6.3.2 云平台弹性测量模型第103-107页
        6.3.3 相关性能指标第107页
    6.4 模型性能评估第107-111页
        6.4.1 到达率影响效果第107-108页
        6.4.2 服务率影响效果第108-109页
        6.4.3 虚拟机启动速率影响效果第109-110页
        6.4.4 虚拟机关闭率影响效果第110-111页
    6.5 模型性能仿真评估第111-113页
        6.5.1 仿真器的设计第111-112页
        6.5.2 仿真结果与分析第112-113页
    6.6 真实环境下的模型性能评估第113-114页
        6.6.1 实验环境第113页
        6.6.2 实验过程和结果第113-114页
    6.7 本章小结第114-115页
总结与展望第115-118页
参考文献第118-128页
附录A 发表论文和参加科研情况说明第128-129页
附录B 攻读学位期间所参与的科研项目第129-130页
致谢第130-131页

论文共131页,点击 下载论文
上一篇:基于发布订阅系统的隐私保护关键技术研究
下一篇:基于正则化方法的图像复原与融合研究