面向LTR的GBRT优化及其并行化

摘要	第5-7页
ABSTRACT	第7-8页
第一章绪论	第15-20页
1.1 研究背景和意义	第15页
1.2 国内外研究现状	第15-17页
1.3 本文的研究内容和主要工作	第17-18页
1.4 本文的组织结构	第18-20页
第二章相关背景知识	第20-44页
2.1 LTR(LEARNING TO RANK)概述	第20-25页
2.1.1 引言	第20页
2.1.2 Learning to Rank的基本流程	第20-22页
2.1.3 Learning to Rank的三种基本方法	第22-23页
2.1.4 Learning to Rank的评价指标	第23-25页
2.2 GBRT(GRADIENT BOOSTING REGRESSION TREE)概述	第25-34页
2.2.1 引言	第25页
2.2.2 集成学习(Ensemble Learning)方法概述	第25-27页
2.2.3 Gradient Boosting框架	第27-30页
2.2.4 树模型概述	第30-32页
2.2.5 GBRT整体训练流程	第32-34页
2.3 密度估计	第34-37页
2.3.1 密度估计简介	第34-35页
2.3.2 核密度估计方法	第35-37页
2.4 大数据计算技术和平台	第37-43页
2.4.1 大数据计算平台概述	第37-38页
2.4.2 Spark技术简介	第38-43页
2.5 本章小结	第43-44页
第三章 GBRT算法改进及其并行化	第44-58页
3.1 引言	第44页
3.2 GBRT算法并行化难点	第44页
3.3 基于K-MEANS直方图的优化方案	第44-55页
3.3.1 优化思路概述	第44-45页
3.3.2 决策树构建过程再探讨	第45-46页
3.3.3 K-Means直方图构建	第46-50页
3.3.4 候选分裂点构造	第50-51页
3.3.5 利用核函数密度估计方法	第51-54页
3.3.6 带宽选择	第54-55页
3.4 优化后回归树训练过程描述	第55-57页
3.5 本章小结	第57-58页
第四章基于MPI和SPARK的并行化算法设计与实现	第58-83页
4.1 引言	第58页
4.2 基于MPI的并行化方案	第58-64页
4.2.1 概述	第58-59页
4.2.2 Master端工作流程	第59-61页
4.2.3 Slave端工作流程	第61-62页
4.2.4 复杂度分析	第62-64页
4.3 实验设计及结果分析	第64-74页
4.3.1 实验环境及数据	第64-65页
4.3.2 桶个数对精度的影响	第65-67页
4.3.3 精度对比	第67-68页
4.3.4 可扩展性性能评估	第68-71页
4.3.5 真实应用数据效果评估	第71-74页
4.4 基于SPARK平台的并行化方案	第74-79页
4.4.1 概述	第74页
4.4.2 并行化方案设计	第74-79页
4.5 实验设计及结果分析	第79-82页
4.5.1 实验环境及数据	第79-80页
4.5.2 可扩展性测试	第80页
4.5.3 计算核心可扩展性测试	第80-81页
4.5.4 数据可扩展性测试	第81-82页
4.6 本章小结	第82-83页
第五章总结与展望	第83-85页
5.1 本文小结	第83页
5.2 下一步工作	第83-85页
参考文献	第85-89页
致谢	第89-90页
附录研究生期间论文发表	第90-91页