鸽子视觉—行为抉择的强化学习研究
摘要 | 第4-6页 |
Abstract | 第6-7页 |
1 绪论 | 第13-21页 |
1.1 研究背景与研究意义 | 第13-14页 |
1.2 研究现状 | 第14-20页 |
1.3 本论文内容与结构 | 第20-21页 |
2 视觉-行为抉择强化学习训练与神经信号采集 | 第21-36页 |
2.1 实验对象 | 第21页 |
2.2 视觉-行为抉择的实验范式设计 | 第21-25页 |
2.2.1 预训练实验设计 | 第21-22页 |
2.2.2 动态随机强化实验设计 | 第22-24页 |
2.2.3 反转实验设计 | 第24-25页 |
2.3 实验范式的实现 | 第25-26页 |
2.3.1 硬件部分 | 第25页 |
2.3.2 软件部分 | 第25-26页 |
2.4 视觉-行为抉择的行为训练 | 第26-29页 |
2.4.1 预训练 | 第26页 |
2.4.2 动态随机强化训练 | 第26-28页 |
2.4.3 反转训练 | 第28-29页 |
2.5 神经信号采集与预处理 | 第29-35页 |
2.5.1 神经信号的采集 | 第30-32页 |
2.5.2 Spike信号的预处理 | 第32-35页 |
2.6 本章小结 | 第35-36页 |
3 基于行为反馈的鸽子强化学习内部状态表征 | 第36-51页 |
3.1 经典强化学习模型 | 第36-38页 |
3.1.1 模型原理 | 第36-37页 |
3.1.2 模型的实现步骤 | 第37-38页 |
3.2 动态强化学习模型 | 第38-40页 |
3.2.1 动态强化学习模型原理 | 第38-39页 |
3.2.2 动态强化学习模型的实现步骤 | 第39-40页 |
3.3 行为信号的动态强化学习模型验证 | 第40-48页 |
3.3.1 动态强化学习模型初始化 | 第41-43页 |
3.3.2 动态强化学习模型验证 | 第43-48页 |
3.4 基于模型学习率的内部状态表征 | 第48-50页 |
3.5 本章小结 | 第50-51页 |
4 NCL区神经元在强化学习中的特征分析 | 第51-59页 |
4.1 有效试次信号的筛选 | 第51-52页 |
4.2 Spike信号的特征提取 | 第52-56页 |
4.2.1 Spike信号的对齐 | 第52-53页 |
4.2.2 响应时间窗的选取 | 第53-54页 |
4.2.3 Spike信号放电频率的计算 | 第54-56页 |
4.3 Spike信号特征分析 | 第56-58页 |
4.3.1 Spike信号特征分析方法 | 第56页 |
4.3.2 对奖惩信息的特征分析结果 | 第56-57页 |
4.3.3 对学习状态的特征分析结果 | 第57-58页 |
4.4 本章小结 | 第58-59页 |
5 总结与展望 | 第59-61页 |
5.1 总结 | 第59-60页 |
5.2 展望 | 第60-61页 |
参考文献 | 第61-65页 |
致谢 | 第65-66页 |
个人简历、在学校期间发表的学术论文与研究成果 | 第66页 |