动态不确定环境下的智能体序贯决策方法及应用研究

摘要	第1-6页
Abstract	第6-16页
1 绪论	第16-29页
·研究背景	第16-18页
·国内外研究现状	第18-26页
·基于状态空间的降维方法	第18-19页
·基于点的在线规划方法	第19-21页
·增强学习方法	第21-24页
·存在的问题	第24-26页
·研究目的和意义	第26-27页
·本文的主要内容和结构安排	第27-29页
2 POMDPS信念状态空间降维算法	第29-51页
·马尔可夫决策过程	第29-33页
·马尔可夫决策过程	第30-31页
·值函数和值迭代	第31-33页
·部分可观察马尔可夫决策过程	第33-36页
·可分解信念状态空间压缩算法	第36-41页
·动态贝叶斯网络及其独立关系	第37-38页
·可分解信念状态空间压缩算法	第38-41页
·VDC-NMF降维算法	第41-45页
·VDC压缩方法	第41-42页
·NMF更新规则	第42-44页
·VDC-NMF降维算法	第44-45页
·算法误差分析	第45页
·仿真分析	第45-50页
·HALLWAY2问题的对比仿真	第46-47页
·经典问题的对比仿真	第47-48页
·机器人救援仿真	第48-50页
·本章小结	第50-51页
3 基于点的在线值迭代算法	第51-75页
·精确值迭代算法	第52-56页
·策略树构造	第53-54页
·α-向量	第54-55页
·精确求解算法	第55-56页
·算法复杂度	第56页
·基于点的离线算法	第56-58页
·基于点的在线算法	第58-64页
·算法思想	第58-60页
·基于点的在线值迭代算法	第60-62页
·误差及收敛性分析	第62-64页
·仿真分析	第64-68页
·ROCKSAMPLE问题	第64-65页
·与或树遍历深度	第65-66页
·实时性能分析	第66-68页
·机器人救援仿真	第68页
·基于后验信念聚类的在线规划算法	第68-74页
·连续状态POMDPs模型	第69-70页
·算法思想	第70-71页
·后验信念聚类算法	第71-73页
·算法复杂度分析	第73页
·仿真分析	第73-74页
·本章小结	第74-75页
4 基于模型的可分解贝叶斯增强学习	第75-93页
·动态贝叶斯网络结构学习模型	第76-79页
·贝叶斯网络学习	第77-78页
·可分解学习模型	第78-79页
·基于模型的贝叶斯增强学习	第79-83页
·信念状态更新	第80-81页
·值函数参数化	第81-83页
·基于点的增量裁剪算法	第83-87页
·策略树的构造和求解	第83-84页
·基于边界点对策略树进行无损裁剪	第84-85页
·基于中间点进行策略树的有损裁剪	第85-86页
·PBIP算法及其复杂度分析	第86-87页
·仿真分析	第87-92页
·经典问题的对比仿真	第88-89页
·策略树裁剪对比仿真	第89-90页
·CHAIN问题对比仿真	第90-92页
·本章小结	第92-93页
5 基于POMDPS的无线传感器网络能量高效策略	第93-108页
·基于广义逆非负矩阵分解的WSNs节能通信	第93-100页
·WSNs中的非负矩阵分解模型	第94-95页
·广义逆矩阵构建	第95-96页
·特征空间变换	第96页
·广义逆非负矩阵分解的通信数据压缩算法	第96-97页
·仿真分析	第97-100页
·基于信念重用的无线传感器网络能量高效跟踪	第100-106页
·基于POMDPs的WSNs模型构建	第101-103页
·跟踪性能最大化算法	第103页
·基于信念重用的能量高效在线跟踪算法	第103-105页
·仿真分析	第105-106页
·本章小结	第106-108页
6 结论与展望	第108-111页
·结论	第108-109页
·展望	第109-111页
参考文献	第111-125页
攻读学位期间主要的研究成果目录	第125-127页
致谢	第127页