摘要 | 第1-5页 |
Abstract | 第5-9页 |
目录 | 第9-12页 |
一 绪论 | 第12-16页 |
1 引言 | 第12-13页 |
2 本文的主要内容 | 第13-16页 |
二 机器学习概述 | 第16-26页 |
1 机器学习发展史 | 第16-18页 |
2 强化学习 | 第18-26页 |
(1) 环境 | 第19-20页 |
(2) 对用户需求的适应--情感计算 | 第20-22页 |
(3) 统计机器学习 | 第22-23页 |
(4) 基于符号的归纳机器学习 | 第23-24页 |
(5) 进化机器学习 | 第24-26页 |
三 强化学习 | 第26-48页 |
1 强化学习的生物学原理 | 第26-27页 |
2 强化学习标准模型 | 第27-28页 |
3 强化学习的发展及研究现状 | 第28-31页 |
4 强化学习的主要算法 | 第31-36页 |
(1) 瞬时差分方法(TD) | 第31-33页 |
(2) Q-学习算法 | 第33-34页 |
(3) 自适应启发评价算法(AHC) | 第34-36页 |
5 学习性能的常用测试标准 | 第36-37页 |
(1) 算法的最终的收敛性 | 第36-37页 |
(2) 算法的收敛速度 | 第37页 |
6 强化学习中的勘探与开采 | 第37-39页 |
(1) 贪婪策略 | 第37-38页 |
(2) 随机化策略 | 第38页 |
(3) 基于区间(interval-based)的技巧 | 第38-39页 |
7 强化学习的应用 | 第39-40页 |
(1) 在游戏比赛中的应用 | 第39页 |
(2) 在控制系统中的应用 | 第39-40页 |
(3) 在机器人中的应用 | 第40页 |
(4) 在调度管理中的应用 | 第40页 |
8 结论 | 第40-42页 |
(1) 系统地研究强化学习理论 | 第41页 |
(2) 强化学习的应用研究 | 第41页 |
(3) 强化学习速度的理论和方法研究 | 第41-42页 |
9 相关资源 | 第42-48页 |
四 倒立摆 | 第48-54页 |
1 研究倒立摆的意义 | 第48-49页 |
2 倒立摆研究现状 | 第49-54页 |
(1) 传统控制方法在倒立摆控制中的应用 | 第49-50页 |
(2) 人工智能控制方法在倒立摆控制中的应用 | 第50-54页 |
五 基于强化学习的倒立摆控制 | 第54-68页 |
1 基于规则表学习的一阶倒立摆控制 | 第54-60页 |
(1) 偏角、位移和力的方向的规定 | 第55页 |
(2) 控制规则表 | 第55-56页 |
(3) 控制规则表的多维线性插值 | 第56页 |
(4) 学习方法 | 第56-57页 |
(5) 学习停止准则 | 第57页 |
(6) 算法的总体框架 | 第57页 |
(7) 实验结果分析 | 第57-60页 |
(8) 结论 | 第60页 |
2 学习一阶倒立摆控制方程的系数 | 第60-63页 |
(1) 一阶倒立摆控制方程 | 第60-61页 |
(2) 学习原理 | 第61页 |
(3) 算法的实现框架 | 第61-62页 |
(4) 实验结果分析 | 第62-63页 |
3 学习二阶倒立摆控制方程的系数 | 第63-68页 |
(1) 二阶倒立摆系统简介 | 第63页 |
(2) 学习原理 | 第63-64页 |
(3) 算法的实现框架 | 第64页 |
(4) 实验结果分析 | 第64-66页 |
(5) 结论 | 第66-68页 |
六 结论 | 第68-70页 |
参考文献 | 第70-80页 |
附录 | 第80-82页 |
附录1 ML和RL术语表 | 第80-82页 |
致谢 | 第82-84页 |
在学期间发表的论文 | 第84页 |