基于强化学习的动态频谱分配算法的研究

摘要	第1-5页
Abstract	第5-6页
缩略语	第6-9页
第一章绪论	第9-16页
·引言	第9页
·论文研究背景	第9-14页
·认知无线电及强化学习概述	第9-12页
·认知无线电及强化学习发展现状	第12-14页
·本文的组织结构	第14-16页
第二章强化学习的理论基础	第16-30页
·强化学习概述	第16-21页
·强化学习模型	第16-18页
·优化行为模型	第18-19页
·马尔可夫决策过程	第19-21页
·强化学习的基本算法	第21-26页
·TD算法	第22-23页
·Q学习	第23-25页
·Sarsa学习算法	第25-26页
·Dyna算法	第26页
·多Agent强化学习基本理论	第26-29页
·MARL方法及其发展	第27页
·合作MARL	第27-28页
·基于对策或平衡解的MARL	第28-29页
·最佳响应MARL	第29页
·本章小结	第29-30页
第三章基于DAQL动态频谱接入改进算法	第30-42页
·引言	第30页
·认知引擎	第30-32页
·改进的DAQL算法	第32-37页
·系统模型	第32-33页
·接入方案	第33页
·算法描述	第33-34页
·问题映射	第34-35页
·DAQL改进算法实现过程	第35-37页
·仿真与分析	第37-41页
·只有固定占用频谱的授权用户存在时的接入分析	第38-39页
·有多种授权用户存在时的接入分析	第39-41页
·本章小结	第41-42页
第四章基于分布式独立学习的多用户动态频谱接入算法	第42-53页
·引言	第42-43页
·多Agent系统	第43-44页
·基于分布式独立学习的多用户动态频谱接入算法	第44-49页
·系统环境模型	第44-45页
·分布式独立强化学习	第45-46页
·问题映射及实现过程	第46-49页
·仿真与分析	第49-52页
·本章小结	第52-53页
第五章基于协作学习的多用户动态频谱接入算法	第53-63页
·引言	第53页
·多Agent系统的协作机制	第53-55页
·合同网技术	第53-54页
·黑板模型	第54页
·结果共享的协同方法	第54-55页
·基于协作学习的多用户动态频谱接入算法	第55-60页
·算法框架	第55-56页
·算法描述	第56-60页
·仿真结果及其分析	第60-61页
·本章小结	第61-63页
第六章全文总结及展望	第63-65页
·本文工作总结	第63页
·进一步研究展望	第63-65页
致谢	第65-66页
参考文献	第66-70页
攻读硕士期间发表的论文及参加的项目	第70页