控制系统的学习和优化：马尔可夫性能势理论与方法

摘要	第1-5页
Abstract	第5-12页
第1章引言	第12-24页
·论文研究背景和研究内容	第12-18页
·学习和优化综述	第12-14页
·马尔可夫系统与性能势理论	第14-17页
·动态系统最优控制	第17-18页
·论文研究思路和主要工作	第18-24页
第2章基于策略迭代的反馈控制	第24-38页
·本章引言	第24-25页
·控制系统建模为MDP	第25-26页
·连续状态空间MDP	第26-31页
·转移概率函数及稳态概率	第26-28页
·性能势和策略迭代	第28-30页
·性能势	第28-29页
·性能优化	第29-30页
·动态规划和策略迭代的比较	第30-31页
·跳变线性二次(JLQ)问题	第31-37页
·转移算子	第32页
·性能势	第32-35页
·最优策略	第35-37页
·本章小结	第37-38页
第3章基于策略迭代的学习算法	第38-52页
·本章引言	第38-39页
·控制系统建模为MDP	第39-40页
·在线学习和优化方法	第40-48页
·状态空间的离散化	第41-42页
·近似链的策略迭代	第42-44页
·性能势和相关参数的估计	第44-48页
·例子	第48-51页
·本章小结	第51-52页
第4章 JLQG模态跳变的优化之一——开环模态控制	第52-70页
·本章引言	第52-53页
·连续时间JLQG	第53-60页
·问题描述	第53-55页
·下层控制问题的解——JLQG调节器	第55-56页
·上层优化问题的解——基于性能势理论的方法	第56-60页
·离散时间JLQG	第60-67页
·问题描述	第61-62页
·下层控制问题的解——JLQG调节器	第62-63页
·上层优化问题的解——基于性能势理论的方法	第63-67页
·应用:一个容错制造系统的优化	第67-69页
·本章小结	第69-70页
第5章 JLQG模态跳变的优化之二——闭环模态控制	第70-78页
·本章引言	第70页
·问题描述	第70-72页
·两类模态控制策略的分析	第72-76页
·数值算例	第76-77页
·本章小结	第77-78页
第6章 JLQ模型的直接自适应最优控制	第78-87页
·本章引言	第78-79页
·问题描述	第79-80页
·Q函数与策略迭代	第80-85页
·策略评价——估计Q函数	第81-83页
·策略改进——基于Q函数的改进公式	第83-84页
·直接自适应策略迭代	第84-85页
·数值算例	第85-86页
·本章小结	第86-87页
第7章 Lebesgue采样系统的最优控制问题——时间集结的方法	第87-116页
·本章引言	第87-89页
·模型描述	第89-90页
·时间集结的方法	第90-95页
·解析解法	第95-99页
·特殊情形:状态无关情形	第97-99页
·基于样本路径的算法	第99-109页
·等价的非周期链	第99-101页
·Q因子	第101-103页
·估计ε(d,u)	第103-107页
·SARSA	第107-109页
·基于周期采样的最优控制	第109-110页
·数值算例和比较	第110-115页
·本章小结	第115-116页
第8章时间集结在一类混杂制造系统中的应用	第116-122页
·本章引言与模型描述	第116-117页
·熔炉加热过程及求解	第117-121页
·本章小结	第121-122页
第9章带有约束的LQG模型的学习算法	第122-134页
·本章引言	第122-123页
·模型描述	第123-125页
·学习算法	第125-130页
·性能梯度	第125-127页
·梯度下降算法	第127-130页
·两类特殊情况	第130-131页
·数值控制集合	第130-131页
·正控制集合	第131页
·数值算例	第131-133页
·本章小结	第133-134页
第10章结论与展望	第134-137页
·论文工作的总结	第134-136页
·进一步研究和展望	第136-137页
参考文献	第137-150页
致谢	第150-151页
个人简历、在学期间发表的学术论文与研究成果	第151-153页