动态不确定环境下的智能体序贯决策方法及应用研究
摘要 | 第1-6页 |
Abstract | 第6-16页 |
1 绪论 | 第16-29页 |
·研究背景 | 第16-18页 |
·国内外研究现状 | 第18-26页 |
·基于状态空间的降维方法 | 第18-19页 |
·基于点的在线规划方法 | 第19-21页 |
·增强学习方法 | 第21-24页 |
·存在的问题 | 第24-26页 |
·研究目的和意义 | 第26-27页 |
·本文的主要内容和结构安排 | 第27-29页 |
2 POMDPS信念状态空间降维算法 | 第29-51页 |
·马尔可夫决策过程 | 第29-33页 |
·马尔可夫决策过程 | 第30-31页 |
·值函数和值迭代 | 第31-33页 |
·部分可观察马尔可夫决策过程 | 第33-36页 |
·可分解信念状态空间压缩算法 | 第36-41页 |
·动态贝叶斯网络及其独立关系 | 第37-38页 |
·可分解信念状态空间压缩算法 | 第38-41页 |
·VDC-NMF降维算法 | 第41-45页 |
·VDC压缩方法 | 第41-42页 |
·NMF更新规则 | 第42-44页 |
·VDC-NMF降维算法 | 第44-45页 |
·算法误差分析 | 第45页 |
·仿真分析 | 第45-50页 |
·HALLWAY2问题的对比仿真 | 第46-47页 |
·经典问题的对比仿真 | 第47-48页 |
·机器人救援仿真 | 第48-50页 |
·本章小结 | 第50-51页 |
3 基于点的在线值迭代算法 | 第51-75页 |
·精确值迭代算法 | 第52-56页 |
·策略树构造 | 第53-54页 |
·α-向量 | 第54-55页 |
·精确求解算法 | 第55-56页 |
·算法复杂度 | 第56页 |
·基于点的离线算法 | 第56-58页 |
·基于点的在线算法 | 第58-64页 |
·算法思想 | 第58-60页 |
·基于点的在线值迭代算法 | 第60-62页 |
·误差及收敛性分析 | 第62-64页 |
·仿真分析 | 第64-68页 |
·ROCKSAMPLE问题 | 第64-65页 |
·与或树遍历深度 | 第65-66页 |
·实时性能分析 | 第66-68页 |
·机器人救援仿真 | 第68页 |
·基于后验信念聚类的在线规划算法 | 第68-74页 |
·连续状态POMDPs模型 | 第69-70页 |
·算法思想 | 第70-71页 |
·后验信念聚类算法 | 第71-73页 |
·算法复杂度分析 | 第73页 |
·仿真分析 | 第73-74页 |
·本章小结 | 第74-75页 |
4 基于模型的可分解贝叶斯增强学习 | 第75-93页 |
·动态贝叶斯网络结构学习模型 | 第76-79页 |
·贝叶斯网络学习 | 第77-78页 |
·可分解学习模型 | 第78-79页 |
·基于模型的贝叶斯增强学习 | 第79-83页 |
·信念状态更新 | 第80-81页 |
·值函数参数化 | 第81-83页 |
·基于点的增量裁剪算法 | 第83-87页 |
·策略树的构造和求解 | 第83-84页 |
·基于边界点对策略树进行无损裁剪 | 第84-85页 |
·基于中间点进行策略树的有损裁剪 | 第85-86页 |
·PBIP算法及其复杂度分析 | 第86-87页 |
·仿真分析 | 第87-92页 |
·经典问题的对比仿真 | 第88-89页 |
·策略树裁剪对比仿真 | 第89-90页 |
·CHAIN问题对比仿真 | 第90-92页 |
·本章小结 | 第92-93页 |
5 基于POMDPS的无线传感器网络能量高效策略 | 第93-108页 |
·基于广义逆非负矩阵分解的WSNs节能通信 | 第93-100页 |
·WSNs中的非负矩阵分解模型 | 第94-95页 |
·广义逆矩阵构建 | 第95-96页 |
·特征空间变换 | 第96页 |
·广义逆非负矩阵分解的通信数据压缩算法 | 第96-97页 |
·仿真分析 | 第97-100页 |
·基于信念重用的无线传感器网络能量高效跟踪 | 第100-106页 |
·基于POMDPs的WSNs模型构建 | 第101-103页 |
·跟踪性能最大化算法 | 第103页 |
·基于信念重用的能量高效在线跟踪算法 | 第103-105页 |
·仿真分析 | 第105-106页 |
·本章小结 | 第106-108页 |
6 结论与展望 | 第108-111页 |
·结论 | 第108-109页 |
·展望 | 第109-111页 |
参考文献 | 第111-125页 |
攻读学位期间主要的研究成果目录 | 第125-127页 |
致谢 | 第127页 |