Dedication | 第1-6页 |
TABLE OF CONTENTS | 第6-11页 |
摘要 | 第11-13页 |
ABSTRACT | 第13-15页 |
CHAPTER 1 INTRODUCTION | 第15-22页 |
·Introduction | 第15-16页 |
·Motivation | 第16-18页 |
·Preliminary Definitions | 第18-20页 |
·Thesis Statement | 第20页 |
·Chapter Summary | 第20-22页 |
CHAPTER 2 BACKGROUND AND RELATED WORKS | 第22-32页 |
·Introduction | 第22-23页 |
·Related Works | 第23-30页 |
·Weighted Strategy Sharing | 第23-24页 |
·Independent vs. Cooperative Agents | 第24-26页 |
·Sparse and Context-specific Q-learning | 第26-28页 |
·Multiple Classifier Method | 第28-30页 |
·Contribution of this work | 第30页 |
·Chapter Summary | 第30-32页 |
CHAPTER 3 FOUNDATIONS OF SINGLE AND MULTI-AGENT REINFORCEMENTLEARNING | 第32-47页 |
·Introduction | 第32页 |
·Reinforcement Learning in Single-Agent Environments | 第32-36页 |
·Markov Decision Processes | 第33-34页 |
·Performance Measures | 第34-35页 |
·Optimality Policies | 第35-36页 |
·Observability | 第36页 |
·Solution methods | 第36-39页 |
·Value Iteration | 第36-38页 |
·Q-Learning | 第38-39页 |
·Reinforcement Learning in Multi-Agent Environments | 第39-43页 |
·General Multi-Agent System Model | 第40-41页 |
·Multi-agent MDP (MMDP) | 第41页 |
·Collaborative Multi-agent MDP | 第41页 |
·Stochastic Games | 第41-42页 |
·Performance Measures in Multi-agent System | 第42-43页 |
·Optimality Policy in Multi-agent System | 第43页 |
·Solution methods in Multi-agent System | 第43页 |
·Coordination Problem | 第43页 |
·Solution with model-based approaches | 第43-44页 |
·Model-free-based solution techniques | 第44-46页 |
·MDP Learners | 第44-45页 |
·Independent Q-Learning | 第45-46页 |
·Chapter Summary | 第46-47页 |
CHAPTER 4 WEIGHTED EXPERIENCE SHARING MULTI-AGENT LEARNING | 第47-56页 |
·Introduction | 第47-48页 |
·Multi-Agent Sharing Algorithm | 第48-49页 |
·Weighted Experience Sharing (WES) | 第49-51页 |
·the problem of experience sharing | 第51-52页 |
·Speed-up vs Number Agents | 第52-55页 |
·Speed-up gain calculation | 第54-55页 |
·Chapter Summary | 第55-56页 |
CHAPTER 5 WEIGHTED EXPERIENCE SHARING MULTI-AGENT BASED SYSTEM | 第56-67页 |
·Introduction | 第56-57页 |
·Treasure Hunting Game Application | 第57-58页 |
·Tools Used | 第58-61页 |
·The JADE platform | 第58-60页 |
·Java | 第60-61页 |
·NetBeans Platform | 第61页 |
·System Specification | 第61-66页 |
·System Architecture | 第62-64页 |
·System interactions | 第64-65页 |
·Learning | 第65-66页 |
·Chapter Summary | 第66-67页 |
CHAPTER 6 CONCLUSION AND FUTURE WORK | 第67-69页 |
REFERENCES | 第69-74页 |
RESEARCH AND PUBLICATION | 第74-75页 |
ACKNOWLEDGEMENTS | 第75页 |