逆向增强学习和示教学习算法研究及其在智能机器人中的应用
摘要 | 第1-7页 |
Abstract | 第7-16页 |
第1章 引言 | 第16-32页 |
·研究背景与意义 | 第16-17页 |
·相关研究现状分析 | 第17-29页 |
·示教学习概况 | 第17-19页 |
·增强学习概况 | 第19-21页 |
·逆向增强学习概况 | 第21-29页 |
·本文研究工作 | 第29-31页 |
·内容安排 | 第31-32页 |
第2章 相关模型及理论 | 第32-53页 |
·马尔可夫决策过程及相关模型 | 第32-39页 |
·马尔可夫决策过程 | 第32-34页 |
·贝尔曼方程 | 第34-35页 |
·增强学习 | 第35-36页 |
·逆向增强学习 | 第36-39页 |
·贝叶斯框架下的相关模型和计算方法 | 第39-52页 |
·贝叶斯推理 | 第40-42页 |
·高斯分布及性质 | 第42-44页 |
·EM算法 | 第44-45页 |
·变分贝叶斯近似方法 | 第45-52页 |
·本章小结 | 第52-53页 |
第3章 序贯逆向增强学习 | 第53-84页 |
·基于逆向增强学习的学徒学习 | 第53-55页 |
·相关序贯方法介绍 | 第55-61页 |
·拟可加序贯学习框架 | 第56-58页 |
·松弛投影方法 | 第58-61页 |
·基于拟可加增量式的逆向增强学习方法 | 第61-72页 |
·原理 | 第61-63页 |
·算法描述 | 第63-64页 |
·收敛性证明 | 第64-67页 |
·实验结果与分析 | 第67-72页 |
·小结 | 第72页 |
·基于松弛投影的逆向增强学习方法 | 第72-81页 |
·原理 | 第72-73页 |
·算法描述 | 第73-76页 |
·收敛性证明 | 第76-78页 |
·约束条件约减 | 第78-79页 |
·实验结果与分析 | 第79-81页 |
·小结 | 第81页 |
·本章小结 | 第81-84页 |
第4章 贝叶斯框架中的逆向增强学习 | 第84-117页 |
·贝叶斯逆向增强学习 | 第84-86页 |
·逆向增强学习中的高斯过程 | 第86-97页 |
·核方法与高斯过程概述 | 第87-91页 |
·马尔可夫决策过程中的高斯过程建模 | 第91-93页 |
·基于高斯过程的逆向增强学习算法 | 第93-95页 |
·实验结果与分析 | 第95-96页 |
·小结 | 第96-97页 |
·变分logistic回归逆向增强学习方法 | 第97-113页 |
·Logistic回归 | 第99-101页 |
·原理 | 第101-104页 |
·算法描述 | 第104-106页 |
·超参数的学习 | 第106-109页 |
·实验结果与分析 | 第109-113页 |
·小结 | 第113页 |
·贝叶斯框架与序贯框架估计方法 | 第113-115页 |
·本章小结 | 第115-117页 |
第5章 地面自主机器人行为样本评测方法 | 第117-139页 |
·地面自主机器人评测系统相关工作 | 第117-120页 |
·地面自主机器人轨迹评测问题 | 第120-122页 |
·地面自主机器人轨迹的特征提取 | 第122-129页 |
·回报函数的特征表示 | 第122-123页 |
·主元分析降维 | 第123-124页 |
·基于PCA的轨迹特征提取方法 | 第124-125页 |
·仿真实验 | 第125-128页 |
·小结 | 第128-129页 |
·基于倾向性分析的轨迹评测方法 | 第129-138页 |
·策略不变条件下的回报函数变形定理 | 第130页 |
·线性子空间的距离测度 | 第130-131页 |
·原理 | 第131-132页 |
·算法描述 | 第132-134页 |
·实验结果与分析 | 第134-137页 |
·小结 | 第137-138页 |
·本章小结 | 第138-139页 |
第6章 总结与展望 | 第139-142页 |
·总结 | 第139-140页 |
·展望与未来工作 | 第140-142页 |
参考文献 | 第142-159页 |
攻读博士学位期间主要研究成果 | 第159-161页 |
致谢 | 第161-162页 |