基于马尔可夫决策理论的规划问题的研究

摘要	第1-7页
ABSTRACT	第7-9页
目录	第9-13页
图表目录	第13-15页
第1章绪论	第15-27页
内容提要	第15页
·研究背景	第15-17页
·智能体的概念	第15-16页
·智能体的认知模型	第16页
·智能体的体系结构	第16-17页
·多智能体系统及其应用	第17页
·研究内容	第17-22页
·马尔可夫过程	第18-19页
·相关决策模型	第19-21页
·大规模不确定性规划问题	第21-22页
·研究平台	第22-25页
·Robocup的目标	第22-23页
·仿真2D平台特点	第23页
·仿真2D发展回顾	第23-25页
·主要工作及章节安排	第25-27页
第2章马尔可夫决策基础理论	第27-61页
内容提要	第27页
·MDP基本模型及概念	第27-32页
·基本模型	第27-28页
·状态	第28-29页
·行动	第29页
·状态转移函数	第29-30页
·策略与值函数	第30-32页
·MDP典型算法	第32-36页
·反向迭代类算法	第33-34页
·前向搜索类算法	第34-36页
·POMDP基本模型及概念	第36-42页
·基本模型	第36-37页
·观察	第37页
·信念状态	第37-38页
·主观贝叶斯更新	第38-40页
·策略表示形式	第40-41页
·值函数表示形式	第41-42页
·POMDP典型算法	第42-48页
·值迭代算法	第42-47页
·搜索类算法	第47-48页
·多智能体系统相关决策模型	第48-50页
·DEC-POMDP模型	第48-49页
·POSG模型及策略表示	第49-50页
·多智能体系统典型决策算法	第50-57页
·基于动态规划求解POSG	第50-54页
·基于搜索的MAA~*算法	第54-57页
·Option理论	第57-59页
·半马尔可夫决策过程	第57-58页
·Option及相关定义	第58-59页
·小结	第59-61页
第3章仿真2D平台中相关子问题的研究	第61-84页
内容提要	第61页
·基本介绍	第61-63页
·仿真2D平台的C/S结构	第61-62页
·问题的POSG建模	第62-63页
·智能体的分层设计	第63页
·观察更新问题	第63-68页
·身份识别问题描述	第63-65页
·身份识别算法	第65-66页
·分步贝叶斯更新	第66-68页
·行为设计问题	第68-80页
·原子动作介绍	第68-70页
·基本MDP求解算法的使用	第70-74页
·概率分布模型及统计方法的使用	第74-77页
·无关状态因素的预分析技术	第77-80页
·模型选择问题	第80-83页
·问题分析	第81页
·情景采样评测	第81-83页
·小结	第83-84页
第4章基于Option理论的分等级规划	第84-104页
内容摘要	第84页
·基本介绍	第84-85页
·系统模型及框架	第85-96页
·因子化表示	第86-88页
·信念状态的处理	第88-90页
·立即收益	第90-91页
·行为生成器	第91-96页
·决策算法设计	第96-101页
·Real-Time框架	第96-97页
·启发式函数	第97-99页
·分支控制	第99-101页
·多智能体的配合及对抗	第101页
·实验效果	第101-102页
·小结	第102-104页
第5章对基本马尔可夫决策算法的研究	第104-121页
内容摘要	第104页
·基本介绍	第104-105页
·实时动态规划算法	第105-109页
·前向搜索算法的收敛判据	第105-106页
·Focused RTDP算法	第106-109页
·增量最优的实时动态规划算法	第109-117页
·最优行动判据	第109-112页
·实时分支选择策略	第112-113页
·实时算法设计	第113-114页
·在线实验	第114-117页
·算法的进一步改进	第117-119页
·异步值迭代	第117-118页
·针对环的处理	第118-119页
·离线实验	第119页
·小结	第119-121页
第6章总结与展望	第121-123页
总结	第121页
未来展望	第121-123页
参考文献	第123-131页
致谢	第131-132页
在读期间发表的学术论文与取得的研究成果	第132页