| 摘要 | 第1-8页 |
| ABSTRACT | 第8-11页 |
| 目录 | 第11-14页 |
| 图索引 | 第14-17页 |
| 表索引 | 第17-19页 |
| 第一章 绪论 | 第19-31页 |
| ·研究背景和意义 | 第19-21页 |
| ·学习系统设计的理论基础 | 第21-24页 |
| ·学习系统实现的技术基础 | 第24-27页 |
| ·研究目标与主要内容 | 第27-28页 |
| ·论文结构 | 第28-29页 |
| ·本章小结 | 第29-31页 |
| 第二章 Agent与多Agent系统结构 | 第31-45页 |
| ·Agent技术 | 第31-34页 |
| ·Agent的定义 | 第31-33页 |
| ·Agent的环境特点 | 第33-34页 |
| ·Agent的体系结构 | 第34-37页 |
| ·多Agent系统的研究现状 | 第37-39页 |
| ·多Agent系统的结构 | 第39-44页 |
| ·多Agent系统协作的基本模型 | 第39-41页 |
| ·多Agent系统的体系结构 | 第41-42页 |
| ·多Agent系统中的协商、协作和协调 | 第42-44页 |
| ·本章小结 | 第44-45页 |
| 第三章 强化学习 | 第45-73页 |
| ·强化学习的发展及研究现状 | 第45-47页 |
| ·马尔可夫决策过程与最优准则 | 第47-54页 |
| ·马尔可夫决策过程(MDP) | 第48-50页 |
| ·最优准则 | 第50-54页 |
| ·强化学习的主要算法 | 第54-63页 |
| ·TD学习算法 | 第55-58页 |
| ·Q学习算法 | 第58-61页 |
| ·Q学习的动作选择机制 | 第61-63页 |
| ·基于偏向信息学习的强化学习算法 | 第63-71页 |
| ·研究背景描述 | 第64-65页 |
| ·基于偏向信息学习的强化学习模型 | 第65-67页 |
| ·基于偏向信息强化学习的过程和机制 | 第67-70页 |
| ·实验验证与分析 | 第70-71页 |
| ·本章小结 | 第71-73页 |
| 第四章 多Agent强化学习的自动分层算法 | 第73-95页 |
| ·引言 | 第73-74页 |
| ·多Agent强化学习 | 第74-82页 |
| ·基本理论及特性 | 第74-77页 |
| ·随机博弈框架 | 第77-80页 |
| ·学习算法的分类 | 第80-82页 |
| ·连续状态空间下多Agent分层强化学习 | 第82-92页 |
| ·MAHRL的模型基础 | 第83-84页 |
| ·半马氏博弈模型 | 第84-86页 |
| ·MAHRL的协同框架 | 第86-88页 |
| ·基于Pareto占优解的MAHRL算法 | 第88-92页 |
| ·实验及结果分析 | 第92-93页 |
| ·本章小结 | 第93-95页 |
| 第五章 基于视觉听觉语义相干性的强化学习系统开发与应用 | 第95-117页 |
| ·应用背景描述 | 第95-97页 |
| ·学习材料的建立和组织 | 第97-98页 |
| ·学习者个性化信息获取 | 第98-107页 |
| ·学习者个性描述模型 | 第99-101页 |
| ·学习者性格特征测试 | 第101-107页 |
| ·培训系统的学习机制 | 第107-112页 |
| ·个体情感的计算模型 | 第107-108页 |
| ·专业技能学习 | 第108-110页 |
| ·心理素质训练 | 第110-112页 |
| ·系统的工作方式 | 第112-116页 |
| ·本章小结 | 第116-117页 |
| 第六章 总结和展望 | 第117-119页 |
| 参考文献 | 第119-127页 |
| 致谢 | 第127-129页 |
| 攻读学位期间完成的论文 | 第129页 |