摘要 | 第1-7页 |
ABSTRACT | 第7-9页 |
目录 | 第9-12页 |
1.绪论 | 第12-32页 |
·课题背景与意义 | 第12-13页 |
·强化学习的基本原理及其与相关学科关系 | 第13-16页 |
·强化学习的基本原理 | 第14页 |
·强化学习研究的相关学科背景 | 第14-16页 |
·强化学习研究现状 | 第16-21页 |
·强化学习的发展历史 | 第16-17页 |
·经典的强化学习算法及其发展 | 第17-20页 |
·强化学习的应用研究 | 第20-21页 |
·有待进一步研究的问题 | 第21页 |
·基于MAS的协同概念设计研究现状 | 第21-28页 |
·协同概念设计的内涵 | 第22-23页 |
·MAS概述 | 第23-25页 |
·基于MAS的协同概念设计 | 第25-28页 |
·论文组织结构 | 第28-29页 |
·本文的主要成果和创新点 | 第29-32页 |
2.基于模拟退火Metropolis准则的多步Q强化学习 | 第32-55页 |
·引言 | 第32页 |
·MDP与动态规划 | 第32-36页 |
·MDP模型 | 第32-34页 |
·Bellman最优性原理 | 第34-35页 |
·值迭代与策略迭代 | 第35-36页 |
·强化学习的经典算法 | 第36-41页 |
·TD学习算法 | 第36-38页 |
·Q学习 | 第38-39页 |
·Q(λ)学习 | 第39-41页 |
·参数λ的意义 | 第41页 |
·多步Q强化学习算法 | 第41-48页 |
·算法提出 | 第41-43页 |
·算法分析 | 第43-45页 |
·k值的确定 | 第45页 |
·仿真试验 | 第45-48页 |
·基于Metropolis准则的多步Q强化学习算法 | 第48-53页 |
·模拟退火算法 | 第48-49页 |
·结合Metropolis准则的多步Q学习算法 | 第49-50页 |
·算法分析 | 第50-51页 |
·仿真实验 | 第51-53页 |
·本章小结 | 第53-55页 |
3.基于最小二乘的强化学习 | 第55-75页 |
·引言 | 第55页 |
·值函数逼近 | 第55-58页 |
·函数逼近的TD学习 | 第56-57页 |
·函数逼近的Q(λ)算法 | 第57-58页 |
·最小二乘Q(λ)强化学习方法 | 第58-66页 |
·最小二乘Q(λ)学习 | 第58-60页 |
·递推最小二乘Q(λ)学习 | 第60-61页 |
·算法分析 | 第61页 |
·仿真实验与结果分析 | 第61-66页 |
·最小二乘SARSA(λ)算法 | 第66-73页 |
·强化学习的SARSA(λ)算法 | 第66-67页 |
·最小二乘SARSA(λ)算法 | 第67-69页 |
·递推最小二乘SARSA(λ)学习 | 第69-70页 |
·仿真实验与结果分析 | 第70-73页 |
·最小二乘Q(λ)和SARSA(λ)算法的对比 | 第73页 |
·本章小结 | 第73-75页 |
4.基于MAS的协同概念设计系统研究 | 第75-93页 |
·引言 | 第75页 |
·协同概念设计的特点与模型 | 第75-79页 |
·协同概念设计的特点 | 第75-76页 |
·协同概念设计的集成模型 | 第76-77页 |
·基于MAS的协同概念设计系统的总体思想 | 第77-79页 |
·协同概念设计系统的Agent建模方法 | 第79页 |
·基于MAS的协同概念设计系统 | 第79-85页 |
·系统体系结构 | 第80-81页 |
·管理Agent | 第81-83页 |
·设计Agent | 第83-85页 |
·基于信念型承诺的Agent协作机制 | 第85-91页 |
·通用部分全局规划概述 | 第85-86页 |
·信念型承诺的提出 | 第86-87页 |
·基于信念型承诺的Agent协作机制 | 第87-90页 |
·基于信念型承诺的Agent协作在协同概念设计系统中的应用 | 第90-91页 |
·基于MAS的协同概念设计系统实现 | 第91-92页 |
·本章小结 | 第92-93页 |
5.强化学习在协同概念设计系统中的应用 | 第93-109页 |
·引言 | 第93页 |
·协同设计任务调度的强化学习方法研究 | 第93-104页 |
·任务调度问题的研究现状分析 | 第94-95页 |
·协同设计任务调度问题描述 | 第95-96页 |
·任务调度问题的MDP模型 | 第96-98页 |
·任度调度的强化学习算法 | 第98-99页 |
·应用实例与分析 | 第99-104页 |
·强化学习在协同概念设计方案优化中的应用 | 第104-107页 |
·方案优化问题的MDP模型 | 第104-106页 |
·基于强化学习的方案优化算法 | 第106页 |
·应用实例分析 | 第106-107页 |
·本章小结 | 第107-109页 |
6.结束语 | 第109-112页 |
致谢 | 第112-113页 |
参考文献 | 第113-123页 |
攻读博士学位期间发表和录用的论文 | 第123页 |