基于马尔可夫决策理论的规划问题的研究
| 摘要 | 第1-7页 |
| ABSTRACT | 第7-9页 |
| 目录 | 第9-13页 |
| 图表目录 | 第13-15页 |
| 第1章 绪论 | 第15-27页 |
| 内容提要 | 第15页 |
| ·研究背景 | 第15-17页 |
| ·智能体的概念 | 第15-16页 |
| ·智能体的认知模型 | 第16页 |
| ·智能体的体系结构 | 第16-17页 |
| ·多智能体系统及其应用 | 第17页 |
| ·研究内容 | 第17-22页 |
| ·马尔可夫过程 | 第18-19页 |
| ·相关决策模型 | 第19-21页 |
| ·大规模不确定性规划问题 | 第21-22页 |
| ·研究平台 | 第22-25页 |
| ·Robocup的目标 | 第22-23页 |
| ·仿真2D平台特点 | 第23页 |
| ·仿真2D发展回顾 | 第23-25页 |
| ·主要工作及章节安排 | 第25-27页 |
| 第2章 马尔可夫决策基础理论 | 第27-61页 |
| 内容提要 | 第27页 |
| ·MDP基本模型及概念 | 第27-32页 |
| ·基本模型 | 第27-28页 |
| ·状态 | 第28-29页 |
| ·行动 | 第29页 |
| ·状态转移函数 | 第29-30页 |
| ·策略与值函数 | 第30-32页 |
| ·MDP典型算法 | 第32-36页 |
| ·反向迭代类算法 | 第33-34页 |
| ·前向搜索类算法 | 第34-36页 |
| ·POMDP基本模型及概念 | 第36-42页 |
| ·基本模型 | 第36-37页 |
| ·观察 | 第37页 |
| ·信念状态 | 第37-38页 |
| ·主观贝叶斯更新 | 第38-40页 |
| ·策略表示形式 | 第40-41页 |
| ·值函数表示形式 | 第41-42页 |
| ·POMDP典型算法 | 第42-48页 |
| ·值迭代算法 | 第42-47页 |
| ·搜索类算法 | 第47-48页 |
| ·多智能体系统相关决策模型 | 第48-50页 |
| ·DEC-POMDP模型 | 第48-49页 |
| ·POSG模型及策略表示 | 第49-50页 |
| ·多智能体系统典型决策算法 | 第50-57页 |
| ·基于动态规划求解POSG | 第50-54页 |
| ·基于搜索的MAA~*算法 | 第54-57页 |
| ·Option理论 | 第57-59页 |
| ·半马尔可夫决策过程 | 第57-58页 |
| ·Option及相关定义 | 第58-59页 |
| ·小结 | 第59-61页 |
| 第3章 仿真2D平台中相关子问题的研究 | 第61-84页 |
| 内容提要 | 第61页 |
| ·基本介绍 | 第61-63页 |
| ·仿真2D平台的C/S结构 | 第61-62页 |
| ·问题的POSG建模 | 第62-63页 |
| ·智能体的分层设计 | 第63页 |
| ·观察更新问题 | 第63-68页 |
| ·身份识别问题描述 | 第63-65页 |
| ·身份识别算法 | 第65-66页 |
| ·分步贝叶斯更新 | 第66-68页 |
| ·行为设计问题 | 第68-80页 |
| ·原子动作介绍 | 第68-70页 |
| ·基本MDP求解算法的使用 | 第70-74页 |
| ·概率分布模型及统计方法的使用 | 第74-77页 |
| ·无关状态因素的预分析技术 | 第77-80页 |
| ·模型选择问题 | 第80-83页 |
| ·问题分析 | 第81页 |
| ·情景采样评测 | 第81-83页 |
| ·小结 | 第83-84页 |
| 第4章 基于Option理论的分等级规划 | 第84-104页 |
| 内容摘要 | 第84页 |
| ·基本介绍 | 第84-85页 |
| ·系统模型及框架 | 第85-96页 |
| ·因子化表示 | 第86-88页 |
| ·信念状态的处理 | 第88-90页 |
| ·立即收益 | 第90-91页 |
| ·行为生成器 | 第91-96页 |
| ·决策算法设计 | 第96-101页 |
| ·Real-Time框架 | 第96-97页 |
| ·启发式函数 | 第97-99页 |
| ·分支控制 | 第99-101页 |
| ·多智能体的配合及对抗 | 第101页 |
| ·实验效果 | 第101-102页 |
| ·小结 | 第102-104页 |
| 第5章 对基本马尔可夫决策算法的研究 | 第104-121页 |
| 内容摘要 | 第104页 |
| ·基本介绍 | 第104-105页 |
| ·实时动态规划算法 | 第105-109页 |
| ·前向搜索算法的收敛判据 | 第105-106页 |
| ·Focused RTDP算法 | 第106-109页 |
| ·增量最优的实时动态规划算法 | 第109-117页 |
| ·最优行动判据 | 第109-112页 |
| ·实时分支选择策略 | 第112-113页 |
| ·实时算法设计 | 第113-114页 |
| ·在线实验 | 第114-117页 |
| ·算法的进一步改进 | 第117-119页 |
| ·异步值迭代 | 第117-118页 |
| ·针对环的处理 | 第118-119页 |
| ·离线实验 | 第119页 |
| ·小结 | 第119-121页 |
| 第6章 总结与展望 | 第121-123页 |
| 总结 | 第121页 |
| 未来展望 | 第121-123页 |
| 参考文献 | 第123-131页 |
| 致谢 | 第131-132页 |
| 在读期间发表的学术论文与取得的研究成果 | 第132页 |