强化学习及其在MAS协同概念设计中应用的研究

摘要	第1-7页
ABSTRACT	第7-9页
目录	第9-12页
1.绪论	第12-32页
·课题背景与意义	第12-13页
·强化学习的基本原理及其与相关学科关系	第13-16页
·强化学习的基本原理	第14页
·强化学习研究的相关学科背景	第14-16页
·强化学习研究现状	第16-21页
·强化学习的发展历史	第16-17页
·经典的强化学习算法及其发展	第17-20页
·强化学习的应用研究	第20-21页
·有待进一步研究的问题	第21页
·基于MAS的协同概念设计研究现状	第21-28页
·协同概念设计的内涵	第22-23页
·MAS概述	第23-25页
·基于MAS的协同概念设计	第25-28页
·论文组织结构	第28-29页
·本文的主要成果和创新点	第29-32页
2.基于模拟退火Metropolis准则的多步Q强化学习	第32-55页
·引言	第32页
·MDP与动态规划	第32-36页
·MDP模型	第32-34页
·Bellman最优性原理	第34-35页
·值迭代与策略迭代	第35-36页
·强化学习的经典算法	第36-41页
·TD学习算法	第36-38页
·Q学习	第38-39页
·Q(λ)学习	第39-41页
·参数λ的意义	第41页
·多步Q强化学习算法	第41-48页
·算法提出	第41-43页
·算法分析	第43-45页
·k值的确定	第45页
·仿真试验	第45-48页
·基于Metropolis准则的多步Q强化学习算法	第48-53页
·模拟退火算法	第48-49页
·结合Metropolis准则的多步Q学习算法	第49-50页
·算法分析	第50-51页
·仿真实验	第51-53页
·本章小结	第53-55页
3.基于最小二乘的强化学习	第55-75页
·引言	第55页
·值函数逼近	第55-58页
·函数逼近的TD学习	第56-57页
·函数逼近的Q(λ)算法	第57-58页
·最小二乘Q(λ)强化学习方法	第58-66页
·最小二乘Q(λ)学习	第58-60页
·递推最小二乘Q(λ)学习	第60-61页
·算法分析	第61页
·仿真实验与结果分析	第61-66页
·最小二乘SARSA(λ)算法	第66-73页
·强化学习的SARSA(λ)算法	第66-67页
·最小二乘SARSA(λ)算法	第67-69页
·递推最小二乘SARSA(λ)学习	第69-70页
·仿真实验与结果分析	第70-73页
·最小二乘Q(λ)和SARSA(λ)算法的对比	第73页
·本章小结	第73-75页
4.基于MAS的协同概念设计系统研究	第75-93页
·引言	第75页
·协同概念设计的特点与模型	第75-79页
·协同概念设计的特点	第75-76页
·协同概念设计的集成模型	第76-77页
·基于MAS的协同概念设计系统的总体思想	第77-79页
·协同概念设计系统的Agent建模方法	第79页
·基于MAS的协同概念设计系统	第79-85页
·系统体系结构	第80-81页
·管理Agent	第81-83页
·设计Agent	第83-85页
·基于信念型承诺的Agent协作机制	第85-91页
·通用部分全局规划概述	第85-86页
·信念型承诺的提出	第86-87页
·基于信念型承诺的Agent协作机制	第87-90页
·基于信念型承诺的Agent协作在协同概念设计系统中的应用	第90-91页
·基于MAS的协同概念设计系统实现	第91-92页
·本章小结	第92-93页
5.强化学习在协同概念设计系统中的应用	第93-109页
·引言	第93页
·协同设计任务调度的强化学习方法研究	第93-104页
·任务调度问题的研究现状分析	第94-95页
·协同设计任务调度问题描述	第95-96页
·任务调度问题的MDP模型	第96-98页
·任度调度的强化学习算法	第98-99页
·应用实例与分析	第99-104页
·强化学习在协同概念设计方案优化中的应用	第104-107页
·方案优化问题的MDP模型	第104-106页
·基于强化学习的方案优化算法	第106页
·应用实例分析	第106-107页
·本章小结	第107-109页
6.结束语	第109-112页
致谢	第112-113页
参考文献	第113-123页
攻读博士学位期间发表和录用的论文	第123页