云计算环境下大规模文本挖掘并行处理技术研究

摘要	第5-7页
Abstract	第7-9页
第1章绪论	第17-28页
1.1 研究背景及意义	第17-19页
1.1.1 大数据时代的数据规模	第17-18页
1.1.2 海量文本挖掘需求	第18-19页
1.2 国内外研究现状	第19-23页
1.2.1 大规模文本挖掘并行处理	第19-21页
1.2.2 云计算环境下的文本挖掘	第21-23页
1.3 面临的问题	第23-24页
1.4 本文研究工作	第24-26页
1.5 本文组织结构	第26-28页
第2章云计算环境下文本挖掘并行处理相关技术	第28-38页
2.1 MapReduce并行编程模型	第28-31页
2.1.1 MapReduce的概念	第28-29页
2.1.2 MapReduce特点分析	第29-30页
2.1.3 MapReduce运行原理	第30-31页
2.2 基于MapReduce的主流云计算平台	第31-37页
2.2.1 Hadoop云计算平台	第32-33页
2.2.2 Spark云计算平台	第33-35页
2.2.3 Flink云计算平台	第35-37页
2.3 基于云计算平台的文本挖掘并行架构	第37-38页
第3章基于Hadoop的条件随机场文本命名实体识别并行算法	第38-59页
3.1 引言	第38-39页
3.2 条件随机场模型	第39-45页
3.2.1 条件随机场	第39-42页
3.2.2 L-BFGS算法	第42-43页
3.2.3 Viterbi算法	第43-45页
3.3 MapReduce条件随机场模型	第45-52页
3.3.1 数据集的划分	第45页
3.3.2 MapReduce L-BFGS (MRLB)算法	第45-47页
3.3.3 MapReduce Viterbi (MRVtb)算法	第47-48页
3.3.4 条件随机场MapReduce框架	第48-50页
3.3.5 运行时间分析	第50-52页
3.4 实验评估	第52-58页
3.4.1 实验环境	第52页
3.4.2 准确性评估	第52-53页
3.4.3 改变数据集大小	第53-56页
3.4.4 改变Hadoop节点数	第56页
3.4.5 改变Hadoop参数	第56-58页
3.5 本章小结	第58-59页
第4章基于GFlink的条件随机场文本命名实体识别异构并行算法	第59-76页
4.1 引言	第59-60页
4.2 背景知识和系统架构	第60-63页
4.2.1 线性条件随机场	第60-63页
4.2.2 GFlink系统架构	第63页
4.3 实现异构分布式CRF算法的挑战	第63-64页
4.4 异构分布式CRF算法的实现	第64-72页
4.4.1 分布式并行算法设计	第64-68页
4.4.2 弹性数据划分策略	第68-70页
4.4.3 中间结果复用方法	第70-72页
4.5 实验评估	第72-75页
4.5.1 实验配置	第72页
4.5.2 准确性评估	第72-73页
4.5.3 不同迭代次数的运行时间	第73页
4.5.4 不同数据集大小的运行时间	第73-75页
4.5.5 不同节点的运行时间	第75页
4.6 本章小结	第75-76页
第5章基于Spark的微博热点话题检测并行聚类算法	第76-96页
5.1 引言	第76-77页
5.2 背景知识和问题定义	第77-79页
5.2.1 问题定义	第77-78页
5.2.2 通用框架	第78-79页
5.2.3 Apache Spark	第79页
5.3 两阶段的微-宏热点话题检测方法	第79-86页
5.3.1 两阶段的微-宏热点话题检测方法	第79-80页
5.3.2 文本选择	第80-82页
5.3.3 话题选择	第82-83页
5.3.4 细粒度与粗粒度相似性计算	第83-86页
5.4 TMHTD算法的Spark实现	第86-90页
5.4.1 数据划分	第87页
5.4.2 TMHTD算法的并行过程	第87-90页
5.5 实验评估	第90-95页
5.5.1 实验设置和数据集	第90页
5.5.2 准确性评估	第90-92页
5.5.3 性能评估	第92-95页
5.6 本章小结	第95-96页
第6章面向文本挖掘的弹性云平台并行资源高效管理	第96-115页
6.1 引言	第96-97页
6.2 云弹性定义	第97-101页
6.2.1 概念和预备知识	第97-98页
6.2.2 弹性定义	第98-99页
6.2.3 弹性实例	第99页
6.2.4 与弹性相关的属性	第99-101页
6.3 面向文本挖掘的云弹性测量模型	第101-107页
6.3.1 基于文本挖掘过程的排队论模型	第101-103页
6.3.2 云平台弹性测量模型	第103-107页
6.3.3 相关性能指标	第107页
6.4 模型性能评估	第107-111页
6.4.1 到达率影响效果	第107-108页
6.4.2 服务率影响效果	第108-109页
6.4.3 虚拟机启动速率影响效果	第109-110页
6.4.4 虚拟机关闭率影响效果	第110-111页
6.5 模型性能仿真评估	第111-113页
6.5.1 仿真器的设计	第111-112页
6.5.2 仿真结果与分析	第112-113页
6.6 真实环境下的模型性能评估	第113-114页
6.6.1 实验环境	第113页
6.6.2 实验过程和结果	第113-114页
6.7 本章小结	第114-115页
总结与展望	第115-118页
参考文献	第118-128页
附录A 发表论文和参加科研情况说明	第128-129页
附录B 攻读学位期间所参与的科研项目	第129-130页
致谢	第130-131页