摘要 | 第1-6页 |
Abstract | 第6-11页 |
第一章 绪论 | 第11-22页 |
·研究背景与意义 | 第11-12页 |
·国内外研究现状 | 第12-18页 |
·强化学习的常用方法 | 第12-14页 |
·大规模学习的“维度灾难”问题 | 第14-15页 |
·自动分层方法 | 第15-18页 |
·本文研究内容 | 第18-19页 |
·论文构成 | 第19-22页 |
第二章 未知环境中智能体的自动分层问题 | 第22-36页 |
·强化学习 | 第22-26页 |
·分层强化学习的实现 | 第26-27页 |
·典型的分层强化学习方法 | 第27-33页 |
·Option分层强化学习方法 | 第27-29页 |
·HAM分层强化学习方法 | 第29-31页 |
·MAXQ分层强化学习方法 | 第31-32页 |
·分层强化学习方法的比较 | 第32-33页 |
·动态分层的必要性和可行性分析 | 第33-35页 |
·本章小结 | 第35-36页 |
第三章 基于模型的分层强化学习算法 | 第36-54页 |
·MAXQ分层框架和基于模型的学习相结合的必要性分析 | 第36-37页 |
·基于贝叶斯学习的强化学习 | 第37-40页 |
·基于模型的分层强化学习算法 | 第40-46页 |
·基于模型的分层强化学习算法的实现 | 第40-44页 |
·Bayesian-MAXQ算法的学习 | 第44-46页 |
·仿真实验与分析 | 第46-53页 |
·仿真环境的建立 | 第46-50页 |
·仿真结果分析 | 第50-53页 |
·小结 | 第53-54页 |
第四章 基于概率模型的动态分层强化学习 | 第54-77页 |
·基于概率模型的动态分层问题 | 第54-57页 |
·基于模型的强化学习 | 第57-58页 |
·DHRL-Model算法的实现 | 第58-66页 |
·子目标点的识别 | 第58-60页 |
·状态子空间的自动划分 | 第60-64页 |
·分层结构的动态调整 | 第64-66页 |
·DHRL-Model算法的流程与性能分析 | 第66-68页 |
·仿真实验与分析 | 第68-76页 |
·小结 | 第76-77页 |
第五章 基于多种抽象方式融合的多智能体系统自动分层 | 第77-91页 |
·未知环境中多智能体强化学习 | 第77-78页 |
·基于多种抽象方式融合的多智能体系统自动分层方法 | 第78-90页 |
·基于状态抽象的多智能体系统决策空间状态聚类方法 | 第79-84页 |
·基于动作抽象的MAXQ分层结构自动构建方法 | 第84-88页 |
·融合状态抽象和动作抽象的多智能体系统自动分层算法 | 第88-90页 |
·小结 | 第90-91页 |
第六章 基于探索信息自适应聚类的多智能体动态分层强化学习 | 第91-112页 |
·多智能体系统分层结构的在线调整 | 第91-98页 |
·多智能体系统状态—动作空间探索对分层结构的影响 | 第92-96页 |
·类MAXQ分层结构动态调整算法 | 第96-98页 |
·基于自动分层算法的多智能体系统策略学习 | 第98-104页 |
·策略空间动态分层与动作死锁 | 第98-100页 |
·分层架构下多智能体系统最优策略搜索 | 第100-101页 |
·MADHRL-ACEI算法的流程 | 第101-102页 |
·MADHRL-ACEI算法的性能分析 | 第102-104页 |
·仿真实验与分析 | 第104-111页 |
·小结 | 第111-112页 |
第七章 结论与展望 | 第112-116页 |
·结论 | 第112-114页 |
·展望 | 第114-116页 |
参考文献 | 第116-126页 |
致谢 | 第126-127页 |
攻读学位期间主要研究成果 | 第127页 |