基于强化学习的电子销售市场动态定价研究

摘要	第1-6页
Abstract	第6-7页
致谢	第7-11页
第一章绪论	第11-22页
·研究背景与意义	第11页
·电子销售市场动态定价问题	第11-13页
·电子商务	第11-13页
·动态定价	第13页
·强化学习	第13-20页
·单agent强化学习	第14-17页
·多agent强化学习	第17-20页
·国内外研究现状	第20-21页
·国外研究现状	第20页
·国内研究现状	第20-21页
·本文的主要工作	第21-22页
第二章电子销售市场中的动态定价问题	第22-27页
·单个销售商垄断电子销售市场模型	第22-25页
·物理模型描述	第22-23页
·SMDP数学模型	第23-25页
·两个销售商垄断电子销售市场模型	第25-26页
·物理模型描述	第25页
·异步决策数学模型	第25页
·同步决策数学模型	第25-26页
·本章小结	第26-27页
第三章单销售商的动态定价算法	第27-40页
·SMDP的优化	第27-28页
·DF方法	第28页
·基于性能势的Q学习	第28-31页
·基于模拟退火的Q学习	第31-32页
·实验结果	第32-39页
·本章小结	第39-40页
第四章两销售商的动态定价算法	第40-56页
·基于性能势的WoLF-PHC算法框架	第40-42页
·异步决策下的优化算法	第42-44页
·同步决策下的优化算法	第44-45页
·实验结果	第45-55页
·异步决策实验结果	第45-50页
·同步决策实验结果	第50-55页
·本章小结	第55-56页
第五章总结	第56-57页
参考文献	第57-61页
攻读硕士学位期间主要科研工作和成果	第61页