面向软件自适应演化中的强化学习方法的研究

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-17页
·研究背景与意义	第7-9页
·研究目标与内容	第9-10页
·国内外研究现状与分析	第10-14页
·软件自适应技术研究现状	第10-12页
·强化学习技术研究现状	第12-14页
·本文的组织结构	第14-17页
第二章相关理论与技术研究	第17-25页
·软件自适应演化技术	第17-18页
·强化学习技术	第18-21页
·强化学习基本框架	第18-19页
·优化行为模型	第19-20页
·马尔可夫决策过程	第20-21页
·常用的强化学习算法	第21-23页
·TD 算法	第21-22页
·Q 学习算法	第22-23页
·DYNA 算法	第23页
·本章小结	第23-25页
第三章基于 AGENT 的软件自适应演化支撑环境	第25-35页
·基于 AGENT 的软件自适应演化支撑环境	第25-28页
·支撑环境框架	第25-27页
·支撑环境及工具	第27-28页
·AGENT 分层组织结构	第28-29页
·AGENT 模型	第29-33页
·AGENT 元模型	第30页
·功能 AGENT 模型	第30-32页
·服务 AGENT 模型	第32-33页
·本章小结	第33-35页
第四章环境感知与 AGENT 学习过程	第35-39页
·环境感知	第35-36页
·环境的形式化定义	第35-36页
·感知器的设计	第36页
·学习机的设计及 AGENT 工作学习过程	第36-38页
·学习机的设计	第36-37页
·AGENT 的学习过程	第37-38页
·本章小结	第38-39页
第五章多 AGENT 强化学习方法的设计与实现	第39-51页
·多 Agent 强化学习框架	第39-41页
·交通灯控制 Agent 的设计与实现	第41-43页
·知识规则定义及知识规则扩充机制	第43-45页
·知识规则定义	第43-44页
·知识规则的扩充机制	第44-45页
·强化学习中 Q 学习方法的设计与实现	第45-50页
·Q 值相关信号的确定	第45-47页
·Q 值更新方法及 Q 值学习方法实现流程	第47-50页
·本章小结	第50-51页
第六章应用案例与实验分析	第51-63页
·实验目的	第51页
·实验用例	第51-61页
·用例介绍	第51-53页
·实验设计	第53-54页
·实验过程	第54-60页
·结果分析	第60-61页
·本章总结	第61-63页
第七章总结与展望	第63-65页
致谢	第65-67页
参考文献	第67-71页
在研期间研究成果	第71-72页