基于强化学习的劣化系统维修策略研究

摘要	第1-6页
ABSTRACT	第6-7页
致谢	第7-12页
第一章绪论	第12-21页
·可靠性概述	第12页
·劣化系统概述	第12-16页
·强化学习方法	第16-19页
·强化学习的定义	第16-17页
·强化学习的主要元素	第17页
·常见的强化学习算法	第17-19页
·强化学习的优点	第19页
·论文内容和结构安排	第19-21页
第二章基本模型及其优化算法	第21-30页
·半 Markov 决策过程	第21-25页
·SMDP 概述	第21-23页
·SMDP 的数学模型	第23-24页
·SMDP 的主要优化算法	第24-25页
·部分可观 Markov 决策过程	第25-29页
·POMDP 概述	第25-26页
·POMDP 的数学模型	第26-28页
·POMDP 的主要优化算法	第28-29页
·本章小结	第29-30页
第三章基于 SMDP 的劣化系统的维修策略研究	第30-40页
·完全可观的劣化系统	第30-32页
·系统描述	第30-31页
·系统假设	第31-32页
·劣化系统的 SMDP 模型	第32-34页
·学习优化算法	第34-37页
·模拟退火方法	第34-35页
·基于模拟退火思想的 Q 学习算法	第35-37页
·实验仿真	第37-39页
·本章小结	第39-40页
第四章基于 POSMDP 的劣化系统维修策略研究	第40-51页
·部分可观的劣化系统	第40-41页
·系统描述	第40-41页
·系统假设	第41页
·劣化系统的 POSMDP 模型	第41-44页
·学习优化算法	第44-47页
·Sarsa ( λ )算法	第44-45页
·NSM 算法	第45-47页
·实验仿真	第47-50页
·本章小结	第50-51页
第五章总结	第51-52页
参考文献	第52-56页
硕士期间发表论文与参与项目	第56页