摘要 | 第5-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第10-18页 |
1.1 课题研究的背景及意义 | 第10-11页 |
1.2 强化学习的发展历史与研究现状 | 第11-15页 |
1.3 强化学习在人形机器人平衡控制方面的研究与应用 | 第15-16页 |
1.4 本文的研究内容 | 第16页 |
1.5 本文的组织结构 | 第16-18页 |
第2章 强化学习 | 第18-28页 |
2.1 强化学习简介 | 第18-19页 |
2.2 强化学习问题模型的组成部分 | 第19-21页 |
2.2.1 环境与动作 | 第19页 |
2.2.2 回报函数 | 第19-20页 |
2.2.3 值函数 | 第20-21页 |
2.3 值函数逼近 | 第21-27页 |
2.3.1 动态规划方法 | 第21-23页 |
2.3.2 值迭代 | 第23-24页 |
2.3.3 Q学习 | 第24-26页 |
2.3.4 时间差分学习 | 第26-27页 |
2.4 本章小结 | 第27-28页 |
第3章 单极倒立摆及Nao机器人仿真平台 | 第28-36页 |
3.1 单级倒立摆仿真模型 | 第28-29页 |
3.2 Nao机器人简介 | 第29-31页 |
3.3 Webots仿真环境 | 第31-32页 |
3.4 B-human的simrobot仿真软件 | 第32-35页 |
3.5 本章小结 | 第35-36页 |
第4章 强化学习在仿真模型及机器人上的应用 | 第36-55页 |
4.1 基于Q-learning算法学习控制单级倒立摆 | 第36-40页 |
4.1.1 倒立摆状态空间,动作集,回报函数 | 第36-37页 |
4.1.2 程序框架结构 | 第37-39页 |
4.1.3 仿真结果分析 | 第39-40页 |
4.2 基于sarsa算法学习控制单极倒立摆 | 第40-42页 |
4.2.1 Sarsa算法简介 | 第40页 |
4.2.2 实验结果 | 第40-42页 |
4.3 基于Q-learning的人形机器人直立时的摆臂自平衡 | 第42-48页 |
4.3.1 对NAO机器人的模型简化及对问题的简化 | 第42-43页 |
4.3.2 状态空间与动作集及状态评估函数 | 第43-45页 |
4.3.3 程序逻辑结构 | 第45-46页 |
4.3.4 结果分析 | 第46-48页 |
4.4 基于Q-learning的人形机器人行进中的摆臂自平衡 | 第48-53页 |
4.4.1 对问题的简化 | 第49页 |
4.4.2 状态空间与动作集及状态评估函数 | 第49-51页 |
4.4.3 程序逻辑结构 | 第51页 |
4.4.4 结果分析 | 第51-53页 |
4.5 本章小结 | 第53-55页 |
结论 | 第55-57页 |
参考文献 | 第57-60页 |
攻读硕士学位期间承担的科研任务与主要成果 | 第60-61页 |
致谢 | 第61页 |