首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

逆向增强学习和示教学习算法研究及其在智能机器人中的应用

摘要第1-7页
Abstract第7-16页
第1章 引言第16-32页
   ·研究背景与意义第16-17页
   ·相关研究现状分析第17-29页
     ·示教学习概况第17-19页
     ·增强学习概况第19-21页
     ·逆向增强学习概况第21-29页
   ·本文研究工作第29-31页
   ·内容安排第31-32页
第2章 相关模型及理论第32-53页
   ·马尔可夫决策过程及相关模型第32-39页
     ·马尔可夫决策过程第32-34页
     ·贝尔曼方程第34-35页
     ·增强学习第35-36页
     ·逆向增强学习第36-39页
   ·贝叶斯框架下的相关模型和计算方法第39-52页
     ·贝叶斯推理第40-42页
     ·高斯分布及性质第42-44页
     ·EM算法第44-45页
     ·变分贝叶斯近似方法第45-52页
   ·本章小结第52-53页
第3章 序贯逆向增强学习第53-84页
   ·基于逆向增强学习的学徒学习第53-55页
   ·相关序贯方法介绍第55-61页
     ·拟可加序贯学习框架第56-58页
     ·松弛投影方法第58-61页
   ·基于拟可加增量式的逆向增强学习方法第61-72页
     ·原理第61-63页
     ·算法描述第63-64页
     ·收敛性证明第64-67页
     ·实验结果与分析第67-72页
     ·小结第72页
   ·基于松弛投影的逆向增强学习方法第72-81页
     ·原理第72-73页
     ·算法描述第73-76页
     ·收敛性证明第76-78页
     ·约束条件约减第78-79页
     ·实验结果与分析第79-81页
     ·小结第81页
   ·本章小结第81-84页
第4章 贝叶斯框架中的逆向增强学习第84-117页
   ·贝叶斯逆向增强学习第84-86页
   ·逆向增强学习中的高斯过程第86-97页
     ·核方法与高斯过程概述第87-91页
     ·马尔可夫决策过程中的高斯过程建模第91-93页
     ·基于高斯过程的逆向增强学习算法第93-95页
     ·实验结果与分析第95-96页
     ·小结第96-97页
   ·变分logistic回归逆向增强学习方法第97-113页
     ·Logistic回归第99-101页
     ·原理第101-104页
     ·算法描述第104-106页
     ·超参数的学习第106-109页
     ·实验结果与分析第109-113页
     ·小结第113页
   ·贝叶斯框架与序贯框架估计方法第113-115页
   ·本章小结第115-117页
第5章 地面自主机器人行为样本评测方法第117-139页
   ·地面自主机器人评测系统相关工作第117-120页
   ·地面自主机器人轨迹评测问题第120-122页
   ·地面自主机器人轨迹的特征提取第122-129页
     ·回报函数的特征表示第122-123页
     ·主元分析降维第123-124页
     ·基于PCA的轨迹特征提取方法第124-125页
     ·仿真实验第125-128页
     ·小结第128-129页
   ·基于倾向性分析的轨迹评测方法第129-138页
     ·策略不变条件下的回报函数变形定理第130页
     ·线性子空间的距离测度第130-131页
     ·原理第131-132页
     ·算法描述第132-134页
     ·实验结果与分析第134-137页
     ·小结第137-138页
   ·本章小结第138-139页
第6章 总结与展望第139-142页
   ·总结第139-140页
   ·展望与未来工作第140-142页
参考文献第142-159页
攻读博士学位期间主要研究成果第159-161页
致谢第161-162页

论文共162页,点击 下载论文
上一篇:基于Valence-Arousal的产品内隐情感表示与推理技术研究
下一篇:在划分数据空间的视角下基于决策边界的分类器研究