基于数据驱动的离散系统迭代学习控制与强化学习控制的研究
| 中文摘要 | 第1-6页 |
| ABSTRACT | 第6-9页 |
| 1. 绪论 | 第9-12页 |
| ·研究背景及意义 | 第9页 |
| ·国内外研究现状 | 第9-11页 |
| ·控制理论及控制工程的研究现状及发展 | 第9-10页 |
| ·数据驱动控制的研究现状及发展 | 第10-11页 |
| ·论文研究内容及组织结构 | 第11-12页 |
| 2. 基本理论知识 | 第12-19页 |
| ·最优控制的基本理论 | 第12-15页 |
| ·最优控制 | 第12-13页 |
| ·动态规划 | 第13-15页 |
| ·不适定问题和Tikhonov正则化 | 第15-19页 |
| ·不适定问题 | 第16-17页 |
| ·Tikhonov正则化 | 第17-19页 |
| 3. 基于数据驱动的迭代学习控制 | 第19-32页 |
| ·迭代学习控制 | 第19-20页 |
| ·基于数据的迭代学习控制的不适定性 | 第20-24页 |
| ·模型知识 | 第20-22页 |
| ·基于正则化理论的迭代学习控制修正公式 | 第22页 |
| ·关于初值的进一步讨论 | 第22-24页 |
| ·基于正则化理论的迭代学习算法 | 第24页 |
| ·算例仿真 | 第24-31页 |
| ·本章小结 | 第31-32页 |
| 4. 基于数据驱动的强化学习控制 | 第32-48页 |
| ·引言 | 第32页 |
| ·模型描述 | 第32-36页 |
| ·线性二次型调节器问题的不适定性 | 第32-34页 |
| ·差分,PI算法和VI算法 | 第34-36页 |
| ·基于输出反馈(OPFB)的PI算法和VI算法 | 第36-41页 |
| ·关于可测数据的价值函数[59] | 第37-39页 |
| ·关于可测数据的差分误差和策略修正 | 第39-40页 |
| ·基于OPFB的PI算法 | 第40-41页 |
| ·基于OPFB的VI算法 | 第41页 |
| ·算例仿真 | 第41-47页 |
| ·OPFB VI算法的实例仿真 | 第41-45页 |
| ·OPFB PI算法的实例仿真 | 第45-47页 |
| ·本章小结 | 第47-48页 |
| 5. 结论与展望 | 第48-49页 |
| ·结论 | 第48页 |
| ·展望 | 第48-49页 |
| 参考文献 | 第49-53页 |
| 攻读硕士学位期间发表学术论文情况 | 第53-54页 |
| 致谢 | 第54-55页 |
| 作者简介 | 第55页 |