基于机器学习的软件工作量数据干涸关键技术研究

摘要	第9-10页
Abstract	第10页
第1章绪论	第11-17页
1.1 课题研究背景与意义	第11-12页
1.2 研究现状与存在的问题	第12-15页
1.2.1 针对工作量数据质量的研究	第12-13页
1.2.2 利用跨公司数据缓解数据干涸情况	第13-14页
1.2.3 亟待解决的问题	第14-15页
1.3 本文的研究内容以及各章与论文主题的关系	第15-16页
1.4 本文的组织结构	第16-17页
第2章研究课题中重要的理论和技术	第17-27页
2.1 相关的软件工作量预测方法	第17-21页
2.1.1 相关方法的分类	第17-18页
2.1.2 常用的基于机器学习的软件工作量估算方法	第18-21页
2.2 相关的评价指标	第21-23页
2.3 相关方法理论和技术	第23-27页
2.3.1 低秩恢复技术和半监督回归技术	第23-24页
2.3.2 流形学习方法和MORPH	第24-25页
2.3.3 AdaBoost算法	第25-27页
第3章提升软件工作量数据质量——缺失数据补全	第27-49页
3.1 引言	第27-30页
3.1.1 背景知识	第28页
3.1.2 研究动机	第28-30页
3.1.3 主要贡献	第30页
3.2 相关工作	第30-31页
3.2.1 缺失数据的解决方案	第30-31页
3.2.2 软件工作量估算中的缺失数据处理方案	第31页
3.3 基于低秩恢复和半监督回归的缺失数据补全方法	第31-37页
3.3.1 自变量缺失补全方法——结构化低秩恢复	第32-35页
3.3.2 因变量缺失补全方法——半监督回归补全	第35-37页
3.3.3 低秩和半监督回归数据补全方法	第37页
3.4 实验设计	第37-40页
3.4.1 数据集	第37-38页
3.4.2 评价指标	第38-39页
3.4.3 对比方法	第39-40页
3.4.4 实验设置	第40页
3.5 实验结果	第40-45页
3.5.1 补全效果比较	第40-43页
3.5.2 补全效果对于不同估计器的适应性实验结果	第43-45页
3.6 讨论与分析	第45-48页
3.6.1 基准估计器上的缺失数据补全效果	第45-47页
3.6.2 补全后数据适应性分析	第47-48页
3.6.3 效度威胁分析	第48页
3.7 本章小结	第48-49页
第4章消除数据共享壁垒——工作量数据隐私保护技术	第49-77页
4.1 引言	第49-53页
4.1.1 背景知识	第50页
4.1.2 研究动机	第50-52页
4.1.3 主要贡献	第52-53页
4.1.4 两个研究问题	第53页
4.2 相关工作	第53-55页
4.2.1 常见的隐私保护方法	第53-54页
4.2.2 软件工程中常见的数据隐私化方法	第54-55页
4.3 区间覆盖子类划分方法	第55-58页
4.3.1 提出的方法概览	第55-56页
4.3.2 基于区间覆盖的数据子类划分算法	第56-57页
4.3.3 基于区间覆盖算法实例	第57-58页
4.4 基于流形学习的双向数据混淆隐私保护算法	第58-63页
4.4.1 双向数据混淆隐私保护策略	第59-60页
4.4.2 基于流形学习的最近不相关近邻混淆样本选择	第60-61页
4.4.3 区间覆盖和基于流形学习双向数据混淆实例	第61-63页
4.5 回答提出的研究问题	第63页
4.6 与相关工作的比较	第63-64页
4.7 实验设计	第64-67页
4.7.1 数据集	第64-65页
4.7.2 评价指标	第65-66页
4.7.3 查询生成器	第66页
4.7.4 实验设置	第66-67页
4.8 实验结果	第67-74页
4.8.1 数据的隐私性和有效性实验结果	第67-71页
4.8.2 隐私化后的数据对于估计器的适应性实验结果	第71-74页
4.9 讨论和分析	第74-76页
4.9.1 ICSD&MLBDO方法隐私性和可用性效果分析	第74页
4.9.2 数据经过ICSD&MLBDO方法处理后适应性分析	第74-75页
4.9.3 效度威胁分析	第75-76页
4.10 本章小结	第76-77页
第5章工作量数据获取新渠道——开源项目工作量数据获取	第77-107页
5.1 引言	第77-79页
5.1.1 研究动机	第77-79页
5.1.2 主要贡献	第79页
5.2 相关工作	第79-82页
5.2.1 软件工作量估算中常见的方法(缓解数据干涸角度)	第79-81页
5.2.2 开源软件项目工作量估算的研究	第81-82页
5.3 基于开源项目的工作量估算的数据收集	第82-96页
5.3.1 方法概览	第82-83页
5.3.2 数据获取模块	第83-92页
5.3.3 数据扩展模块	第92-96页
5.4 实验与分析	第96-103页
5.4.1 研究问题	第97页
5.4.2 评价指标	第97页
5.4.3 收集到的基于开源项目工作量数据集	第97-98页
5.4.4 人员因素度量中的参数确定	第98-100页
5.4.5 实验设计和结果	第100-103页
5.5 进一步讨论和分析	第103-106页
5.5.1 不同类型贡献者之间的关系	第103-104页
5.5.2 自动功能点和代码行数之间的关系	第104-105页
5.5.3 噪声样本对于开源项目工作量数据集的影响	第105页
5.5.4 效度威胁分析	第105-106页
5.6 本章小结	第106-107页
第6章总结与展望	第107-110页
6.1 本文工作总结	第107-108页
6.2 未来工作展望	第108-110页
参考文献	第110-119页
读博期间取得的研究成果	第119-120页
读博期间参与的研究课题	第120-121页
致谢	第121页