强化学习方法及应用技术研究

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-12页
·AGENT与强化学习	第8-9页
·多AGENT强化学习	第9-10页
·多Agent系统	第9-10页
·多Agent强化学习	第10页
·强化学习研究现状	第10-11页
·本文的主要工作和组织结构	第11-12页
第二章强化学习简介	第12-22页
·引言	第12页
·强化学习概述	第12-14页
·强化学习基本原理与模型	第12-13页
·强化学习要素与马尔可夫决策过程	第13-14页
·强化学习主要算法与探索策略	第14-19页
·瞬时差分(Temporal Difference, TD)学习算法	第15-16页
·Q学习算法	第16-18页
·Sarsa学习算法	第18页
·强化学习常用探索策略	第18-19页
·多AGENT强化学习理论与相关算法	第19-21页
·马尔可夫博弈(Markov Games)	第19-20页
·相关算法简介	第20-21页
·本章小结	第21-22页
第三章基于改进的启发式动作选择的强化学习	第22-34页
·启发式强化学习	第22-24页
·启发式强化学习	第22-23页
·定义启发函数	第23页
·启发式Q学习	第23-24页
·对启发式强化学习的分析	第24-25页
·启发式强化学习的改进	第25-28页
·基于状态回溯的启发式Q学习	第25-26页
·基于状态回溯的启发式Q学习分析	第26-28页
·机器人路径规划应用	第28-33页
·仿真环境设置	第28页
·机器人行为与学习过程的设计	第28-29页
·机器人在固定终点的环境中学习	第29-31页
·机器人在变终点的环境中学习	第31-33页
·本章小结	第33-34页
第四章经验共享与总结的多AGENT强化学习方法	第34-50页
·多AGENT强化学习的分析	第34-36页
·多Agent强化学习的分类	第34-35页
·多Agent协同强化学习	第35-36页
·任务分解策略	第36-37页
·任务分解模型	第36页
·子任务分发	第36-37页
·强化学习中的一种经验总结方法	第37-41页
·经验总结方法	第37-39页
·经验总结方法实验	第39-41页
·多AGENT强化学习中的经验共享	第41-42页
·结合围捕问题的仿真实验	第42-49页
·围捕问题的任务描述	第42-43页
·围捕问题的任务分解	第43-44页
·经验共享与总结的学习过程	第44-45页
·围捕实验结果与分析	第45-49页
·本章小结	第49-50页
第五章团队马尔可夫博弈的多AGENT强化学习	第50-60页
·团队马尔可夫博弈	第50-53页
·个体理性与集体理性	第50-51页
·团队马尔可夫博弈	第51-53页
·问题域描述	第53-55页
·联合行为对象的确定	第53-54页
·结合团队马尔可夫博弈	第54-55页
·仿真实验与结果分析	第55-59页
·仿真实验描述	第55-56页
·团队马尔可夫博弈学习过程	第56-57页
·实验结果与分析	第57-59页
·本章小结	第59-60页
第六章结束语	第60-62页
·本文总结	第60页
·问题与展望	第60-62页
致谢	第62-64页
参考文献	第64-67页