基于并行强化学习的建筑节能方法研究

摘要	第6-7页
Abstract	第7-8页
第一章绪论	第11-17页
1.1 研究背景及意义	第11-12页
1.2 国内外研究现状	第12-15页
1.2.1 建筑节能控制方法的研究现状	第12-13页
1.2.2 强化学习的研究现状	第13-14页
1.2.3 并行强化学习的研究现状	第14-15页
1.3 本文的研究目的和研究内容	第15-17页
第二章强化学习理论及算法	第17-27页
2.1 强化学习	第17-24页
2.1.1 强化学习的基本要素	第17-18页
2.1.2 强化学习框架	第18页
2.1.3 马尔科夫决策过程	第18-20页
2.1.4 强化学习的主要算法	第20-24页
2.2 并行强化学习	第24-25页
2.3 函数逼近	第25-26页
2.4 本章小结	第26-27页
第三章多线程并行强化学习算法	第27-41页
3.1 相关技术	第27-28页
3.1.1 多线程技术	第27-28页
3.1.2 经验回放	第28页
3.2 多线程并行强化学习算法	第28-33页
3.2.1 MPRL的算法框架	第28-29页
3.2.2 基于FCM的强化学习多线程划分方法	第29-31页
3.2.3 MPRL算法	第31-33页
3.3 实验	第33-39页
3.3.1 Randomwalk	第33-35页
3.3.2 Windygridworld	第35-38页
3.3.3 Cartpole	第38-39页
3.4 本章小结	第39-41页
第四章一种面向建筑节能的强化学习自适应控制方法	第41-52页
4.1 强化学习自适应算法框架建模	第41-43页
4.1.1 环境建模	第41-42页
4.1.2 算法框架设计	第42-43页
4.2 控制算法与仿真步骤	第43-45页
4.2.1 控制算法	第43-44页
4.2.2 仿真步骤	第44-45页
4.3 实验	第45-50页
4.3.1 关于模型的节能性的对比实验	第45页
4.3.2 关于RLAC方法收敛性能的对比实验	第45-48页
4.3.3 关于RLAC方法对建筑物内相关设备控制性能的实验	第48-50页
4.4 本章小结	第50-52页
第五章基于并行强化学习的建筑节能方法	第52-61页
5.1 基于自模拟度量的多样性样本池	第52-54页
5.1.1 自模拟度量	第52-53页
5.1.2 多样性样本池的构造	第53-54页
5.2 基于并行强化学习的建筑节能方法	第54-56页
5.2.1 环境与强化学习信号建模	第54-55页
5.2.2 基于并行强化学习的控制节能算法	第55-56页
5.3 实验	第56-59页
5.3.1 与Q-Learning算法的对比实验	第57-58页
5.3.2 与PID控制方法的对比实验	第58-59页
5.4 本章小结	第59-61页
第六章总结	第61-62页
参考文献	第62-66页
图表目录	第66-68页
致谢	第68-69页
附录	第69-71页
作者简介	第71-72页