首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

强化学习方法及应用技术研究

摘要第1-4页
Abstract第4-8页
第一章 绪论第8-12页
   ·AGENT与强化学习第8-9页
   ·多AGENT强化学习第9-10页
     ·多Agent系统第9-10页
     ·多Agent强化学习第10页
   ·强化学习研究现状第10-11页
   ·本文的主要工作和组织结构第11-12页
第二章 强化学习简介第12-22页
   ·引言第12页
   ·强化学习概述第12-14页
     ·强化学习基本原理与模型第12-13页
     ·强化学习要素与马尔可夫决策过程第13-14页
   ·强化学习主要算法与探索策略第14-19页
     ·瞬时差分(Temporal Difference, TD)学习算法第15-16页
     ·Q学习算法第16-18页
     ·Sarsa学习算法第18页
     ·强化学习常用探索策略第18-19页
   ·多AGENT强化学习理论与相关算法第19-21页
     ·马尔可夫博弈(Markov Games)第19-20页
     ·相关算法简介第20-21页
   ·本章小结第21-22页
第三章 基于改进的启发式动作选择的强化学习第22-34页
   ·启发式强化学习第22-24页
     ·启发式强化学习第22-23页
     ·定义启发函数第23页
     ·启发式Q学习第23-24页
   ·对启发式强化学习的分析第24-25页
   ·启发式强化学习的改进第25-28页
     ·基于状态回溯的启发式Q学习第25-26页
     ·基于状态回溯的启发式Q学习分析第26-28页
   ·机器人路径规划应用第28-33页
     ·仿真环境设置第28页
     ·机器人行为与学习过程的设计第28-29页
     ·机器人在固定终点的环境中学习第29-31页
     ·机器人在变终点的环境中学习第31-33页
   ·本章小结第33-34页
第四章 经验共享与总结的多AGENT强化学习方法第34-50页
   ·多AGENT强化学习的分析第34-36页
     ·多Agent强化学习的分类第34-35页
     ·多Agent协同强化学习第35-36页
   ·任务分解策略第36-37页
     ·任务分解模型第36页
     ·子任务分发第36-37页
   ·强化学习中的一种经验总结方法第37-41页
     ·经验总结方法第37-39页
     ·经验总结方法实验第39-41页
   ·多AGENT强化学习中的经验共享第41-42页
   ·结合围捕问题的仿真实验第42-49页
     ·围捕问题的任务描述第42-43页
     ·围捕问题的任务分解第43-44页
     ·经验共享与总结的学习过程第44-45页
     ·围捕实验结果与分析第45-49页
   ·本章小结第49-50页
第五章 团队马尔可夫博弈的多AGENT强化学习第50-60页
   ·团队马尔可夫博弈第50-53页
     ·个体理性与集体理性第50-51页
     ·团队马尔可夫博弈第51-53页
   ·问题域描述第53-55页
     ·联合行为对象的确定第53-54页
     ·结合团队马尔可夫博弈第54-55页
   ·仿真实验与结果分析第55-59页
     ·仿真实验描述第55-56页
     ·团队马尔可夫博弈学习过程第56-57页
     ·实验结果与分析第57-59页
   ·本章小结第59-60页
第六章 结束语第60-62页
   ·本文总结第60页
   ·问题与展望第60-62页
致谢第62-64页
参考文献第64-67页

论文共67页,点击 下载论文
上一篇:基于输入输出数据的机电系统建模
下一篇:概念格Hasse图布局算法研究