首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

强化学习及其在MAS协同概念设计中应用的研究

摘要第1-7页
ABSTRACT第7-9页
目录第9-12页
1.绪论第12-32页
     ·课题背景与意义第12-13页
     ·强化学习的基本原理及其与相关学科关系第13-16页
       ·强化学习的基本原理第14页
       ·强化学习研究的相关学科背景第14-16页
     ·强化学习研究现状第16-21页
       ·强化学习的发展历史第16-17页
       ·经典的强化学习算法及其发展第17-20页
       ·强化学习的应用研究第20-21页
       ·有待进一步研究的问题第21页
     ·基于MAS的协同概念设计研究现状第21-28页
       ·协同概念设计的内涵第22-23页
       ·MAS概述第23-25页
       ·基于MAS的协同概念设计第25-28页
     ·论文组织结构第28-29页
     ·本文的主要成果和创新点第29-32页
2.基于模拟退火Metropolis准则的多步Q强化学习第32-55页
     ·引言第32页
     ·MDP与动态规划第32-36页
       ·MDP模型第32-34页
       ·Bellman最优性原理第34-35页
       ·值迭代与策略迭代第35-36页
     ·强化学习的经典算法第36-41页
       ·TD学习算法第36-38页
       ·Q学习第38-39页
       ·Q(λ)学习第39-41页
       ·参数λ的意义第41页
     ·多步Q强化学习算法第41-48页
       ·算法提出第41-43页
       ·算法分析第43-45页
       ·k值的确定第45页
       ·仿真试验第45-48页
     ·基于Metropolis准则的多步Q强化学习算法第48-53页
       ·模拟退火算法第48-49页
       ·结合Metropolis准则的多步Q学习算法第49-50页
       ·算法分析第50-51页
       ·仿真实验第51-53页
     ·本章小结第53-55页
3.基于最小二乘的强化学习第55-75页
     ·引言第55页
     ·值函数逼近第55-58页
       ·函数逼近的TD学习第56-57页
       ·函数逼近的Q(λ)算法第57-58页
     ·最小二乘Q(λ)强化学习方法第58-66页
       ·最小二乘Q(λ)学习第58-60页
       ·递推最小二乘Q(λ)学习第60-61页
       ·算法分析第61页
       ·仿真实验与结果分析第61-66页
     ·最小二乘SARSA(λ)算法第66-73页
       ·强化学习的SARSA(λ)算法第66-67页
       ·最小二乘SARSA(λ)算法第67-69页
       ·递推最小二乘SARSA(λ)学习第69-70页
       ·仿真实验与结果分析第70-73页
       ·最小二乘Q(λ)和SARSA(λ)算法的对比第73页
     ·本章小结第73-75页
4.基于MAS的协同概念设计系统研究第75-93页
     ·引言第75页
     ·协同概念设计的特点与模型第75-79页
       ·协同概念设计的特点第75-76页
       ·协同概念设计的集成模型第76-77页
       ·基于MAS的协同概念设计系统的总体思想第77-79页
     ·协同概念设计系统的Agent建模方法第79页
     ·基于MAS的协同概念设计系统第79-85页
       ·系统体系结构第80-81页
       ·管理Agent第81-83页
       ·设计Agent第83-85页
     ·基于信念型承诺的Agent协作机制第85-91页
       ·通用部分全局规划概述第85-86页
       ·信念型承诺的提出第86-87页
       ·基于信念型承诺的Agent协作机制第87-90页
       ·基于信念型承诺的Agent协作在协同概念设计系统中的应用第90-91页
     ·基于MAS的协同概念设计系统实现第91-92页
     ·本章小结第92-93页
5.强化学习在协同概念设计系统中的应用第93-109页
     ·引言第93页
     ·协同设计任务调度的强化学习方法研究第93-104页
       ·任务调度问题的研究现状分析第94-95页
       ·协同设计任务调度问题描述第95-96页
       ·任务调度问题的MDP模型第96-98页
       ·任度调度的强化学习算法第98-99页
       ·应用实例与分析第99-104页
     ·强化学习在协同概念设计方案优化中的应用第104-107页
       ·方案优化问题的MDP模型第104-106页
       ·基于强化学习的方案优化算法第106页
       ·应用实例分析第106-107页
     ·本章小结第107-109页
6.结束语第109-112页
致谢第112-113页
参考文献第113-123页
攻读博士学位期间发表和录用的论文第123页

论文共123页,点击 下载论文
上一篇:支持双语的协同CAPP系统若干关键技术研究
下一篇:Web服务在搜索引擎中的应用研究