致谢 | 第9-10页 |
摘要 | 第10-12页 |
ABSTRACT | 第12-13页 |
第一章 绪论 | 第20-30页 |
1.1 众包系统概论 | 第20-23页 |
1.1.1 众包系统在智能计算领域的应用 | 第21-22页 |
1.1.2 众包系统与机器学习 | 第22-23页 |
1.2 众包系统的数据质量和模型质量问题 | 第23-26页 |
1.2.1 问题定义 | 第23-24页 |
1.2.2 两类提升数据质量的方法 | 第24-25页 |
1.2.3 真值推理算法 | 第25页 |
1.2.4 偏置标注问题的研究范畴 | 第25-26页 |
1.3 主要研究内容与组织结构 | 第26-29页 |
1.3.1 课题来源 | 第26页 |
1.3.2 主要研究内容 | 第26-27页 |
1.3.3 内容组织 | 第27-29页 |
1.4 本章小结 | 第29-30页 |
第二章 多噪声标签的相关研究 | 第30-42页 |
2.1 引言 | 第30-31页 |
2.2 基于EM的真值推理算法 | 第31-35页 |
2.2.1 问题定义 | 第31-32页 |
2.2.2 Dawid & Skene(DS)算法 | 第32-33页 |
2.2.3 Raykar,Yu and et al.(RY)算法 | 第33-34页 |
2.2.4 GLAD算法 | 第34-35页 |
2.2.5 ZenCrowd算法 | 第35页 |
2.3 其它真值推理算法 | 第35-38页 |
2.4 学习模型构建方法 | 第38-41页 |
2.4.1 静态环境下学习模型的构建方法 | 第38-39页 |
2.4.2 动态环境下学习模型的构建方法 | 第39-41页 |
2.5 本章小结 | 第41-42页 |
第三章 偏置标注问题实证分析 | 第42-62页 |
3.1 引言 | 第42-43页 |
3.2 相关工作 | 第43-44页 |
3.3 二分类偏置标注问题 | 第44-46页 |
3.3.1 问题定义 | 第44页 |
3.3.2 对多数投票算法的影响 | 第44-46页 |
3.4 实际数据集中的偏置标注现象 | 第46-51页 |
3.4.1 数据集Affective Text | 第47-48页 |
3.4.2 数据集Adult Content | 第48-49页 |
3.4.3 数据集Word Similarity | 第49页 |
3.4.4 数据集Trec2010 | 第49-50页 |
3.4.5 其它三个二类数据集 | 第50页 |
3.4.6 讨论 | 第50-51页 |
3.5 实验及分析 | 第51-61页 |
3.5.1 实验设置 | 第51-52页 |
3.5.2 实验1:偏置数据集上的真值推理性能 | 第52-55页 |
3.5.3 实验2:失效EM算法详细分析 | 第55-59页 |
3.5.4 实验3:小类召回率 | 第59-61页 |
3.6 本章小结 | 第61-62页 |
第四章 基于自动阈值估计的算法 | 第62-81页 |
4.1 引言 | 第62-63页 |
4.2 相关工作 | 第63页 |
4.3 自动阈值估计算法 | 第63-71页 |
4.3.1 一个案例研究 | 第65-68页 |
4.3.2 正标签频率阈值算法 | 第68-69页 |
4.3.3 阈值估计算法 | 第69-71页 |
4.4 实验结果及分析 | 第71-80页 |
4.4.1 数据集及相关实验设置 | 第71-72页 |
4.4.2 实验1:mushroom数据集上性能分析 | 第72-75页 |
4.4.3 实验2:不同数据集上的比较 | 第75-77页 |
4.4.4 实验3:无偏置数据集性能分析 | 第77页 |
4.4.5 实验4:真实数据集上学习模型性能 | 第77-80页 |
4.5 本章小结 | 第80-81页 |
第五章 偏置标注下的主动学习 | 第81-99页 |
5.1 引言 | 第81-82页 |
5.2 相关工作 | 第82-83页 |
5.3 主动学习框架 | 第83-86页 |
5.3.1 主动学习框架 | 第83-84页 |
5.3.2 标签集成时的偏置处理 | 第84-86页 |
5.4 样本选择策略 | 第86-89页 |
5.4.1 样本选择时的偏置处理 | 第86页 |
5.4.2 基于多噪声标签集和偏置水平的不确定度 | 第86-87页 |
5.4.3 基于学习模型和偏置水平的不确定度 | 第87-88页 |
5.4.4 混合不确定度 | 第88-89页 |
5.5 实验结果及分析 | 第89-97页 |
5.5.1 合成数据集及实验设置 | 第89-90页 |
5.5.2 实验1:方法的有效性 | 第90-93页 |
5.5.3 实验2:样本选择策略之间的比较 | 第93-95页 |
5.5.4 实验3:实际数据集验证 | 第95-97页 |
5.6 本章小结 | 第97-99页 |
第六章 基于聚类的多类真值推理 | 第99-115页 |
6.1 引言 | 第99-100页 |
6.2 相关工作 | 第100-101页 |
6.3 基于聚类的真值推理算法 | 第101-106页 |
6.3.1 动机 | 第101-102页 |
6.3.2 原理和特征生成 | 第102-105页 |
6.3.3 算法GTIC | 第105-106页 |
6.4 实验结果及分析 | 第106-114页 |
6.4.1 数据集和实验设置 | 第106-108页 |
6.4.2 实验1:准确度指标比较 | 第108-110页 |
6.4.3 实验2:M-AUC指标比较 | 第110-112页 |
6.4.4 实验3:运行时间比较 | 第112-114页 |
6.5 本章小结 | 第114-115页 |
第七章 结束语 | 第115-118页 |
7.1 主要研究工作 | 第115-116页 |
7.2 下一步工作 | 第116-118页 |
参考文献 | 第118-128页 |
攻读博士学位期间的学术活动及成果情况 | 第128-130页 |