| 摘要 | 第1-5页 |
| Abstract | 第5-12页 |
| 第1章 引言 | 第12-24页 |
| ·论文研究背景和研究内容 | 第12-18页 |
| ·学习和优化综述 | 第12-14页 |
| ·马尔可夫系统与性能势理论 | 第14-17页 |
| ·动态系统最优控制 | 第17-18页 |
| ·论文研究思路和主要工作 | 第18-24页 |
| 第2章 基于策略迭代的反馈控制 | 第24-38页 |
| ·本章引言 | 第24-25页 |
| ·控制系统建模为MDP | 第25-26页 |
| ·连续状态空间MDP | 第26-31页 |
| ·转移概率函数及稳态概率 | 第26-28页 |
| ·性能势和策略迭代 | 第28-30页 |
| ·性能势 | 第28-29页 |
| ·性能优化 | 第29-30页 |
| ·动态规划和策略迭代的比较 | 第30-31页 |
| ·跳变线性二次(JLQ)问题 | 第31-37页 |
| ·转移算子 | 第32页 |
| ·性能势 | 第32-35页 |
| ·最优策略 | 第35-37页 |
| ·本章小结 | 第37-38页 |
| 第3章 基于策略迭代的学习算法 | 第38-52页 |
| ·本章引言 | 第38-39页 |
| ·控制系统建模为MDP | 第39-40页 |
| ·在线学习和优化方法 | 第40-48页 |
| ·状态空间的离散化 | 第41-42页 |
| ·近似链的策略迭代 | 第42-44页 |
| ·性能势和相关参数的估计 | 第44-48页 |
| ·例子 | 第48-51页 |
| ·本章小结 | 第51-52页 |
| 第4章 JLQG模态跳变的优化之一——开环模态控制 | 第52-70页 |
| ·本章引言 | 第52-53页 |
| ·连续时间JLQG | 第53-60页 |
| ·问题描述 | 第53-55页 |
| ·下层控制问题的解——JLQG调节器 | 第55-56页 |
| ·上层优化问题的解——基于性能势理论的方法 | 第56-60页 |
| ·离散时间JLQG | 第60-67页 |
| ·问题描述 | 第61-62页 |
| ·下层控制问题的解——JLQG调节器 | 第62-63页 |
| ·上层优化问题的解——基于性能势理论的方法 | 第63-67页 |
| ·应用:一个容错制造系统的优化 | 第67-69页 |
| ·本章小结 | 第69-70页 |
| 第5章 JLQG模态跳变的优化之二——闭环模态控制 | 第70-78页 |
| ·本章引言 | 第70页 |
| ·问题描述 | 第70-72页 |
| ·两类模态控制策略的分析 | 第72-76页 |
| ·数值算例 | 第76-77页 |
| ·本章小结 | 第77-78页 |
| 第6章 JLQ模型的直接自适应最优控制 | 第78-87页 |
| ·本章引言 | 第78-79页 |
| ·问题描述 | 第79-80页 |
| ·Q函数与策略迭代 | 第80-85页 |
| ·策略评价——估计Q函数 | 第81-83页 |
| ·策略改进——基于Q函数的改进公式 | 第83-84页 |
| ·直接自适应策略迭代 | 第84-85页 |
| ·数值算例 | 第85-86页 |
| ·本章小结 | 第86-87页 |
| 第7章 Lebesgue采样系统的最优控制问题——时间集结的方法 | 第87-116页 |
| ·本章引言 | 第87-89页 |
| ·模型描述 | 第89-90页 |
| ·时间集结的方法 | 第90-95页 |
| ·解析解法 | 第95-99页 |
| ·特殊情形:状态无关情形 | 第97-99页 |
| ·基于样本路径的算法 | 第99-109页 |
| ·等价的非周期链 | 第99-101页 |
| ·Q因子 | 第101-103页 |
| ·估计ε(d,u) | 第103-107页 |
| ·SARSA | 第107-109页 |
| ·基于周期采样的最优控制 | 第109-110页 |
| ·数值算例和比较 | 第110-115页 |
| ·本章小结 | 第115-116页 |
| 第8章 时间集结在一类混杂制造系统中的应用 | 第116-122页 |
| ·本章引言与模型描述 | 第116-117页 |
| ·熔炉加热过程及求解 | 第117-121页 |
| ·本章小结 | 第121-122页 |
| 第9章 带有约束的LQG模型的学习算法 | 第122-134页 |
| ·本章引言 | 第122-123页 |
| ·模型描述 | 第123-125页 |
| ·学习算法 | 第125-130页 |
| ·性能梯度 | 第125-127页 |
| ·梯度下降算法 | 第127-130页 |
| ·两类特殊情况 | 第130-131页 |
| ·数值控制集合 | 第130-131页 |
| ·正控制集合 | 第131页 |
| ·数值算例 | 第131-133页 |
| ·本章小结 | 第133-134页 |
| 第10章 结论与展望 | 第134-137页 |
| ·论文工作的总结 | 第134-136页 |
| ·进一步研究和展望 | 第136-137页 |
| 参考文献 | 第137-150页 |
| 致谢 | 第150-151页 |
| 个人简历、在学期间发表的学术论文与研究成果 | 第151-153页 |