基于马尔可夫决策理论的规划问题的研究
摘要 | 第1-7页 |
ABSTRACT | 第7-9页 |
目录 | 第9-13页 |
图表目录 | 第13-15页 |
第1章 绪论 | 第15-27页 |
内容提要 | 第15页 |
·研究背景 | 第15-17页 |
·智能体的概念 | 第15-16页 |
·智能体的认知模型 | 第16页 |
·智能体的体系结构 | 第16-17页 |
·多智能体系统及其应用 | 第17页 |
·研究内容 | 第17-22页 |
·马尔可夫过程 | 第18-19页 |
·相关决策模型 | 第19-21页 |
·大规模不确定性规划问题 | 第21-22页 |
·研究平台 | 第22-25页 |
·Robocup的目标 | 第22-23页 |
·仿真2D平台特点 | 第23页 |
·仿真2D发展回顾 | 第23-25页 |
·主要工作及章节安排 | 第25-27页 |
第2章 马尔可夫决策基础理论 | 第27-61页 |
内容提要 | 第27页 |
·MDP基本模型及概念 | 第27-32页 |
·基本模型 | 第27-28页 |
·状态 | 第28-29页 |
·行动 | 第29页 |
·状态转移函数 | 第29-30页 |
·策略与值函数 | 第30-32页 |
·MDP典型算法 | 第32-36页 |
·反向迭代类算法 | 第33-34页 |
·前向搜索类算法 | 第34-36页 |
·POMDP基本模型及概念 | 第36-42页 |
·基本模型 | 第36-37页 |
·观察 | 第37页 |
·信念状态 | 第37-38页 |
·主观贝叶斯更新 | 第38-40页 |
·策略表示形式 | 第40-41页 |
·值函数表示形式 | 第41-42页 |
·POMDP典型算法 | 第42-48页 |
·值迭代算法 | 第42-47页 |
·搜索类算法 | 第47-48页 |
·多智能体系统相关决策模型 | 第48-50页 |
·DEC-POMDP模型 | 第48-49页 |
·POSG模型及策略表示 | 第49-50页 |
·多智能体系统典型决策算法 | 第50-57页 |
·基于动态规划求解POSG | 第50-54页 |
·基于搜索的MAA~*算法 | 第54-57页 |
·Option理论 | 第57-59页 |
·半马尔可夫决策过程 | 第57-58页 |
·Option及相关定义 | 第58-59页 |
·小结 | 第59-61页 |
第3章 仿真2D平台中相关子问题的研究 | 第61-84页 |
内容提要 | 第61页 |
·基本介绍 | 第61-63页 |
·仿真2D平台的C/S结构 | 第61-62页 |
·问题的POSG建模 | 第62-63页 |
·智能体的分层设计 | 第63页 |
·观察更新问题 | 第63-68页 |
·身份识别问题描述 | 第63-65页 |
·身份识别算法 | 第65-66页 |
·分步贝叶斯更新 | 第66-68页 |
·行为设计问题 | 第68-80页 |
·原子动作介绍 | 第68-70页 |
·基本MDP求解算法的使用 | 第70-74页 |
·概率分布模型及统计方法的使用 | 第74-77页 |
·无关状态因素的预分析技术 | 第77-80页 |
·模型选择问题 | 第80-83页 |
·问题分析 | 第81页 |
·情景采样评测 | 第81-83页 |
·小结 | 第83-84页 |
第4章 基于Option理论的分等级规划 | 第84-104页 |
内容摘要 | 第84页 |
·基本介绍 | 第84-85页 |
·系统模型及框架 | 第85-96页 |
·因子化表示 | 第86-88页 |
·信念状态的处理 | 第88-90页 |
·立即收益 | 第90-91页 |
·行为生成器 | 第91-96页 |
·决策算法设计 | 第96-101页 |
·Real-Time框架 | 第96-97页 |
·启发式函数 | 第97-99页 |
·分支控制 | 第99-101页 |
·多智能体的配合及对抗 | 第101页 |
·实验效果 | 第101-102页 |
·小结 | 第102-104页 |
第5章 对基本马尔可夫决策算法的研究 | 第104-121页 |
内容摘要 | 第104页 |
·基本介绍 | 第104-105页 |
·实时动态规划算法 | 第105-109页 |
·前向搜索算法的收敛判据 | 第105-106页 |
·Focused RTDP算法 | 第106-109页 |
·增量最优的实时动态规划算法 | 第109-117页 |
·最优行动判据 | 第109-112页 |
·实时分支选择策略 | 第112-113页 |
·实时算法设计 | 第113-114页 |
·在线实验 | 第114-117页 |
·算法的进一步改进 | 第117-119页 |
·异步值迭代 | 第117-118页 |
·针对环的处理 | 第118-119页 |
·离线实验 | 第119页 |
·小结 | 第119-121页 |
第6章 总结与展望 | 第121-123页 |
总结 | 第121页 |
未来展望 | 第121-123页 |
参考文献 | 第123-131页 |
致谢 | 第131-132页 |
在读期间发表的学术论文与取得的研究成果 | 第132页 |