| 中文摘要 | 第1页 |
| 英文摘要 | 第3-6页 |
| 第一章 绪论 | 第6-16页 |
| ·研究背景及意义 | 第6-8页 |
| ·模糊神经网络 | 第8-11页 |
| ·模糊神经网络的发展及现状 | 第8-10页 |
| ·模糊神经网络的发展前景 | 第10-11页 |
| ·强化学习 | 第11-14页 |
| ·强化学习的发展及现状 | 第11-13页 |
| ·强化学习的研究进展及有待解决的问题 | 第13-14页 |
| ·论文主要工作内容及结构安排 | 第14-16页 |
| 第二章 强化学习 | 第16-31页 |
| ·强化学习的特点 | 第16-17页 |
| ·马尔可夫决策过程模型(MDP) | 第17-19页 |
| ·动态规划(Dynamic Programming)法 | 第19-20页 |
| ·蒙特卡洛算法(Monte Carlo) | 第20-21页 |
| ·即时差分学习 TD(Temporal Difference Learning) | 第21-24页 |
| ·Q学习算法 | 第24-26页 |
| ·Q学习算法的迭代公式 | 第24-26页 |
| ·Q学习的动作选择机制 | 第26页 |
| ·自适应启发评价算法(Adaptive heuristic critic algorithm) | 第26-29页 |
| ·离散动作 AHC算法(The AHC algorithm for discrete actions) | 第27-28页 |
| ·连续动作的 AHC算法(The AHC algorithms for continuous actions) | 第28-29页 |
| ·Sarsa算法 | 第29页 |
| ·Dyna算法 | 第29-30页 |
| ·本章小结 | 第30-31页 |
| 第三章 模糊神经网络 | 第31-50页 |
| ·模糊推理的理论基础 | 第31-32页 |
| ·模糊集合 | 第31页 |
| ·模糊关系 | 第31-32页 |
| ·模糊关系的定义 | 第31-32页 |
| ·模糊关系的运算 | 第32页 |
| ·隶属函数的建立 | 第32页 |
| ·模糊推理 | 第32-34页 |
| ·模糊条件语句 | 第32-33页 |
| ·模糊推理系统 | 第33-34页 |
| ·模糊逻辑控制系统 | 第34-37页 |
| ·模糊逻辑控制 | 第34-35页 |
| ·模糊系统模型 | 第35-37页 |
| ·神经网络理论基础 | 第37-42页 |
| ·人工神经元模型 | 第38页 |
| ·神经网络的学习方法 | 第38-40页 |
| ·学习机理 | 第38-39页 |
| ·学习方法(训练方法) | 第39页 |
| ·学习规则 | 第39-40页 |
| ·多层前向神经网络模型 | 第40-42页 |
| ·BP算法的原理 | 第40-41页 |
| ·BP算法的数学表达 | 第41-42页 |
| ·模糊神经网络理论基础 | 第42-47页 |
| ·神经网络与模糊系统的比较 | 第42-43页 |
| ·神经网络与模糊技术的融合 | 第43页 |
| ·模糊神经网络的结构与算法 | 第43-45页 |
| ·模糊神经网络控制器的学习算法 | 第45-47页 |
| ·模糊神经网络结构优化的两种方法 | 第47-49页 |
| ·自组织竞争神经网络 | 第47-48页 |
| ·模糊C-平均法 | 第48-49页 |
| ·本章小结 | 第49-50页 |
| 第四章 基于强化学习的动态模糊神经网络控制 | 第50-63页 |
| ·引言 | 第50页 |
| ·模糊神经网络的结构辨识 | 第50-51页 |
| ·基于强化学习的动态模糊神经网络控制 | 第51-54页 |
| ·模糊控制规则的产生 | 第51-53页 |
| ·ε-Completeness准则 | 第51-52页 |
| ·时间差分偏差标准 | 第52-53页 |
| ·修剪不满意和冗余的规则 | 第53-54页 |
| ·模糊隶属函数的修改 | 第54页 |
| ·实验仿真 | 第54-62页 |
| ·本章小结 | 第62-63页 |
| 第五章 结论与展望 | 第63-65页 |
| 参考文献 | 第65-69页 |
| 致谢 | 第69-70页 |
| 在学校期间发表论文及参加科研情况 | 第70页 |