中文摘要 | 第1页 |
英文摘要 | 第3-6页 |
第一章 绪论 | 第6-16页 |
·研究背景及意义 | 第6-8页 |
·模糊神经网络 | 第8-11页 |
·模糊神经网络的发展及现状 | 第8-10页 |
·模糊神经网络的发展前景 | 第10-11页 |
·强化学习 | 第11-14页 |
·强化学习的发展及现状 | 第11-13页 |
·强化学习的研究进展及有待解决的问题 | 第13-14页 |
·论文主要工作内容及结构安排 | 第14-16页 |
第二章 强化学习 | 第16-31页 |
·强化学习的特点 | 第16-17页 |
·马尔可夫决策过程模型(MDP) | 第17-19页 |
·动态规划(Dynamic Programming)法 | 第19-20页 |
·蒙特卡洛算法(Monte Carlo) | 第20-21页 |
·即时差分学习 TD(Temporal Difference Learning) | 第21-24页 |
·Q学习算法 | 第24-26页 |
·Q学习算法的迭代公式 | 第24-26页 |
·Q学习的动作选择机制 | 第26页 |
·自适应启发评价算法(Adaptive heuristic critic algorithm) | 第26-29页 |
·离散动作 AHC算法(The AHC algorithm for discrete actions) | 第27-28页 |
·连续动作的 AHC算法(The AHC algorithms for continuous actions) | 第28-29页 |
·Sarsa算法 | 第29页 |
·Dyna算法 | 第29-30页 |
·本章小结 | 第30-31页 |
第三章 模糊神经网络 | 第31-50页 |
·模糊推理的理论基础 | 第31-32页 |
·模糊集合 | 第31页 |
·模糊关系 | 第31-32页 |
·模糊关系的定义 | 第31-32页 |
·模糊关系的运算 | 第32页 |
·隶属函数的建立 | 第32页 |
·模糊推理 | 第32-34页 |
·模糊条件语句 | 第32-33页 |
·模糊推理系统 | 第33-34页 |
·模糊逻辑控制系统 | 第34-37页 |
·模糊逻辑控制 | 第34-35页 |
·模糊系统模型 | 第35-37页 |
·神经网络理论基础 | 第37-42页 |
·人工神经元模型 | 第38页 |
·神经网络的学习方法 | 第38-40页 |
·学习机理 | 第38-39页 |
·学习方法(训练方法) | 第39页 |
·学习规则 | 第39-40页 |
·多层前向神经网络模型 | 第40-42页 |
·BP算法的原理 | 第40-41页 |
·BP算法的数学表达 | 第41-42页 |
·模糊神经网络理论基础 | 第42-47页 |
·神经网络与模糊系统的比较 | 第42-43页 |
·神经网络与模糊技术的融合 | 第43页 |
·模糊神经网络的结构与算法 | 第43-45页 |
·模糊神经网络控制器的学习算法 | 第45-47页 |
·模糊神经网络结构优化的两种方法 | 第47-49页 |
·自组织竞争神经网络 | 第47-48页 |
·模糊C-平均法 | 第48-49页 |
·本章小结 | 第49-50页 |
第四章 基于强化学习的动态模糊神经网络控制 | 第50-63页 |
·引言 | 第50页 |
·模糊神经网络的结构辨识 | 第50-51页 |
·基于强化学习的动态模糊神经网络控制 | 第51-54页 |
·模糊控制规则的产生 | 第51-53页 |
·ε-Completeness准则 | 第51-52页 |
·时间差分偏差标准 | 第52-53页 |
·修剪不满意和冗余的规则 | 第53-54页 |
·模糊隶属函数的修改 | 第54页 |
·实验仿真 | 第54-62页 |
·本章小结 | 第62-63页 |
第五章 结论与展望 | 第63-65页 |
参考文献 | 第65-69页 |
致谢 | 第69-70页 |
在学校期间发表论文及参加科研情况 | 第70页 |