首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

有关强化学习的若干问题研究

摘要第1-4页
Abstract第4-8页
1 绪论第8-19页
   ·引言第8-9页
   ·强化学习的发展历史第9-11页
   ·强化学习的研究现状第11-16页
     ·学习任务的建模第11-13页
     ·学习空间的构建第13-14页
     ·学习经验的存储和利用第14页
     ·多目标强化学习算法第14-15页
     ·标准强化学习验证问题第15-16页
     ·应用第16页
   ·目前研究所存在的问题第16-17页
   ·本文的组织结构第17-19页
2 强化学习的理论基础第19-26页
   ·引言第19-20页
   ·Q学习算法的基本原理第20-23页
     ·Markov决策过程模型第20页
     ·期望回报函数第20-21页
     ·状态-动作对的Q值函数第21-22页
     ·动作选择机制第22-23页
     ·Q值函数的更新第23页
   ·基本Q学习算法的主要步骤第23-24页
   ·基本Q学习算法的特点和存在的问题第24-25页
   ·本章小结第25-26页
3 强化学习中的经验存储和利用第26-39页
   ·引言第26-27页
   ·资格迹第27-29页
     ·前瞻观点第27-28页
     ·后向观点第28-29页
   ·Actor/Critic学习框架第29-30页
   ·Dyna学习框架第30-32页
   ·改进的分阶Dyna-Q(λ)学习算法第32-35页
     ·自适应阶段划分准则第33-34页
     ·动作选择机制和经验利用机制第34页
     ·环境模型的构建和使用第34-35页
     ·改进的分阶Dyna-Q(λ)学习算法的主要步骤第35页
   ·仿真结果第35-38页
   ·本章小结第38-39页
4 基于状态空间压缩技术的强化学习方法第39-56页
   ·引言第39-41页
   ·基于状态敏感度的状态空间自主压缩第41-45页
     ·信息熵的基本概念和物理意义第41页
     ·状态敏感度第41-42页
     ·基于状态敏感度的状态空间自主压缩准则第42-43页
     ·基于状态敏感度的动作选择机制第43页
     ·仿真结果第43-45页
   ·基于分层进化函数逼近器的强化学习算法第45-54页
     ·预备知识第45-48页
     ·基于分层进化函数逼近器的强化学习系统框架第48页
     ·评价选择策略第48-49页
     ·分层进化BP网络函数逼近器第49-51页
     ·LEFA-RL算法步骤第51-52页
     ·仿真结果第52-54页
   ·本章小结第54-56页
5 一种基于模糊逻辑的多目标强化学习算法第56-67页
   ·引言第56-57页
   ·多目标Markov决策过程模型第57页
   ·基于模糊逻辑的"综合优度"合成第57-61页
     ·偏好信息的引入第58页
     ·Mamdani模糊推理系统第58-59页
     ·"相对优度"的计算第59-61页
     ·"综合优度"的合成第61页
   ·一种基于模糊逻辑的多目标强化学习算法第61-62页
     ·动作选择机制第61页
     ·算法的实现步骤第61-62页
   ·仿真结果第62-66页
   ·本章小结第66-67页
6 总结和展望第67-69页
致谢第69-70页
参考文献第70-77页

论文共77页,点击 下载论文
上一篇:基于视觉的六自由度机械臂控制技术研究
下一篇:HWME中群体研讨可视化及意见综合研究