| 摘要 | 第1-7页 |
| ABSTRACT | 第7-9页 |
| 目录 | 第9-12页 |
| 1.绪论 | 第12-32页 |
| ·课题背景与意义 | 第12-13页 |
| ·强化学习的基本原理及其与相关学科关系 | 第13-16页 |
| ·强化学习的基本原理 | 第14页 |
| ·强化学习研究的相关学科背景 | 第14-16页 |
| ·强化学习研究现状 | 第16-21页 |
| ·强化学习的发展历史 | 第16-17页 |
| ·经典的强化学习算法及其发展 | 第17-20页 |
| ·强化学习的应用研究 | 第20-21页 |
| ·有待进一步研究的问题 | 第21页 |
| ·基于MAS的协同概念设计研究现状 | 第21-28页 |
| ·协同概念设计的内涵 | 第22-23页 |
| ·MAS概述 | 第23-25页 |
| ·基于MAS的协同概念设计 | 第25-28页 |
| ·论文组织结构 | 第28-29页 |
| ·本文的主要成果和创新点 | 第29-32页 |
| 2.基于模拟退火Metropolis准则的多步Q强化学习 | 第32-55页 |
| ·引言 | 第32页 |
| ·MDP与动态规划 | 第32-36页 |
| ·MDP模型 | 第32-34页 |
| ·Bellman最优性原理 | 第34-35页 |
| ·值迭代与策略迭代 | 第35-36页 |
| ·强化学习的经典算法 | 第36-41页 |
| ·TD学习算法 | 第36-38页 |
| ·Q学习 | 第38-39页 |
| ·Q(λ)学习 | 第39-41页 |
| ·参数λ的意义 | 第41页 |
| ·多步Q强化学习算法 | 第41-48页 |
| ·算法提出 | 第41-43页 |
| ·算法分析 | 第43-45页 |
| ·k值的确定 | 第45页 |
| ·仿真试验 | 第45-48页 |
| ·基于Metropolis准则的多步Q强化学习算法 | 第48-53页 |
| ·模拟退火算法 | 第48-49页 |
| ·结合Metropolis准则的多步Q学习算法 | 第49-50页 |
| ·算法分析 | 第50-51页 |
| ·仿真实验 | 第51-53页 |
| ·本章小结 | 第53-55页 |
| 3.基于最小二乘的强化学习 | 第55-75页 |
| ·引言 | 第55页 |
| ·值函数逼近 | 第55-58页 |
| ·函数逼近的TD学习 | 第56-57页 |
| ·函数逼近的Q(λ)算法 | 第57-58页 |
| ·最小二乘Q(λ)强化学习方法 | 第58-66页 |
| ·最小二乘Q(λ)学习 | 第58-60页 |
| ·递推最小二乘Q(λ)学习 | 第60-61页 |
| ·算法分析 | 第61页 |
| ·仿真实验与结果分析 | 第61-66页 |
| ·最小二乘SARSA(λ)算法 | 第66-73页 |
| ·强化学习的SARSA(λ)算法 | 第66-67页 |
| ·最小二乘SARSA(λ)算法 | 第67-69页 |
| ·递推最小二乘SARSA(λ)学习 | 第69-70页 |
| ·仿真实验与结果分析 | 第70-73页 |
| ·最小二乘Q(λ)和SARSA(λ)算法的对比 | 第73页 |
| ·本章小结 | 第73-75页 |
| 4.基于MAS的协同概念设计系统研究 | 第75-93页 |
| ·引言 | 第75页 |
| ·协同概念设计的特点与模型 | 第75-79页 |
| ·协同概念设计的特点 | 第75-76页 |
| ·协同概念设计的集成模型 | 第76-77页 |
| ·基于MAS的协同概念设计系统的总体思想 | 第77-79页 |
| ·协同概念设计系统的Agent建模方法 | 第79页 |
| ·基于MAS的协同概念设计系统 | 第79-85页 |
| ·系统体系结构 | 第80-81页 |
| ·管理Agent | 第81-83页 |
| ·设计Agent | 第83-85页 |
| ·基于信念型承诺的Agent协作机制 | 第85-91页 |
| ·通用部分全局规划概述 | 第85-86页 |
| ·信念型承诺的提出 | 第86-87页 |
| ·基于信念型承诺的Agent协作机制 | 第87-90页 |
| ·基于信念型承诺的Agent协作在协同概念设计系统中的应用 | 第90-91页 |
| ·基于MAS的协同概念设计系统实现 | 第91-92页 |
| ·本章小结 | 第92-93页 |
| 5.强化学习在协同概念设计系统中的应用 | 第93-109页 |
| ·引言 | 第93页 |
| ·协同设计任务调度的强化学习方法研究 | 第93-104页 |
| ·任务调度问题的研究现状分析 | 第94-95页 |
| ·协同设计任务调度问题描述 | 第95-96页 |
| ·任务调度问题的MDP模型 | 第96-98页 |
| ·任度调度的强化学习算法 | 第98-99页 |
| ·应用实例与分析 | 第99-104页 |
| ·强化学习在协同概念设计方案优化中的应用 | 第104-107页 |
| ·方案优化问题的MDP模型 | 第104-106页 |
| ·基于强化学习的方案优化算法 | 第106页 |
| ·应用实例分析 | 第106-107页 |
| ·本章小结 | 第107-109页 |
| 6.结束语 | 第109-112页 |
| 致谢 | 第112-113页 |
| 参考文献 | 第113-123页 |
| 攻读博士学位期间发表和录用的论文 | 第123页 |