首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于加权经验共享的多Agent强化学习的应用研究

Dedication第1-6页
TABLE OF CONTENTS第6-11页
摘要第11-13页
ABSTRACT第13-15页
CHAPTER 1 INTRODUCTION第15-22页
   ·Introduction第15-16页
   ·Motivation第16-18页
   ·Preliminary Definitions第18-20页
   ·Thesis Statement第20页
   ·Chapter Summary第20-22页
CHAPTER 2 BACKGROUND AND RELATED WORKS第22-32页
   ·Introduction第22-23页
   ·Related Works第23-30页
     ·Weighted Strategy Sharing第23-24页
     ·Independent vs. Cooperative Agents第24-26页
     ·Sparse and Context-specific Q-learning第26-28页
     ·Multiple Classifier Method第28-30页
   ·Contribution of this work第30页
   ·Chapter Summary第30-32页
CHAPTER 3 FOUNDATIONS OF SINGLE AND MULTI-AGENT REINFORCEMENTLEARNING第32-47页
   ·Introduction第32页
   ·Reinforcement Learning in Single-Agent Environments第32-36页
     ·Markov Decision Processes第33-34页
     ·Performance Measures第34-35页
     ·Optimality Policies第35-36页
     ·Observability第36页
   ·Solution methods第36-39页
     ·Value Iteration第36-38页
     ·Q-Learning第38-39页
   ·Reinforcement Learning in Multi-Agent Environments第39-43页
     ·General Multi-Agent System Model第40-41页
     ·Multi-agent MDP (MMDP)第41页
     ·Collaborative Multi-agent MDP第41页
     ·Stochastic Games第41-42页
     ·Performance Measures in Multi-agent System第42-43页
     ·Optimality Policy in Multi-agent System第43页
   ·Solution methods in Multi-agent System第43页
     ·Coordination Problem第43页
   ·Solution with model-based approaches第43-44页
   ·Model-free-based solution techniques第44-46页
     ·MDP Learners第44-45页
     ·Independent Q-Learning第45-46页
   ·Chapter Summary第46-47页
CHAPTER 4 WEIGHTED EXPERIENCE SHARING MULTI-AGENT LEARNING第47-56页
   ·Introduction第47-48页
   ·Multi-Agent Sharing Algorithm第48-49页
   ·Weighted Experience Sharing (WES)第49-51页
   ·the problem of experience sharing第51-52页
   ·Speed-up vs Number Agents第52-55页
     ·Speed-up gain calculation第54-55页
   ·Chapter Summary第55-56页
CHAPTER 5 WEIGHTED EXPERIENCE SHARING MULTI-AGENT BASED SYSTEM第56-67页
   ·Introduction第56-57页
   ·Treasure Hunting Game Application第57-58页
   ·Tools Used第58-61页
     ·The JADE platform第58-60页
     ·Java第60-61页
     ·NetBeans Platform第61页
   ·System Specification第61-66页
     ·System Architecture第62-64页
     ·System interactions第64-65页
     ·Learning第65-66页
   ·Chapter Summary第66-67页
CHAPTER 6 CONCLUSION AND FUTURE WORK第67-69页
REFERENCES第69-74页
RESEARCH AND PUBLICATION第74-75页
ACKNOWLEDGEMENTS第75页

论文共75页,点击 下载论文
上一篇:风险投资、股权集中度与创业板公司绩效关系的实证研究
下一篇:基于股指期货套期保值的ETF风险管理研究