首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

面向人机交互的强化学习与意图推理

摘要第3-5页
ABSTRACT第5-6页
第一章 绪论第10-19页
    1.1 课题背景及研究意义第10-11页
    1.2 人机交互技术发展及应用第11-14页
    1.3 强化学习第14-15页
        1.3.1 强化学习简述第14页
        1.3.2 存在的问题及解决途径第14-15页
    1.4 意图推理第15-16页
        1.4.1 意图推理概述第15-16页
        1.4.2 研究现状总结第16页
    1.5 意图推理与强化学习的融合第16-17页
    1.6 本文主要内容和章节安排第17-19页
第二章 强化学习理论及算法第19-28页
    2.1 引言第19页
    2.2 强化学习模型与主要组成要素第19-22页
        2.2.1 强化学习基本模型第19-20页
        2.2.2 强化学习主要组成元素第20-22页
    2.3 马尔可夫决策模型(MDP)第22-23页
    2.4 强化学习基本算法第23-26页
        2.4.1 瞬时差分算法(TD)第24-25页
        2.4.2 Q学习算法(Q-learning)第25-26页
    2.5 人机交互应用中的关键问题第26-27页
        2.5.1 泛化问题第26-27页
        2.5.2 收敛速度第27页
        2.5.3 强化函数与算法结构设计第27页
    2.6 本章小结第27-28页
第三章 基于强化学习和意图推理的目标跟踪第28-46页
    3.1 引言第28-30页
    3.2 系统控制框架与基础理论第30-35页
        3.2.1 系统控制框架概述第30页
        3.2.2 粒子滤波第30-33页
        3.2.3 灰色预测第33-35页
    3.3 加入意图推理的强化学习算法第35-37页
    3.4 系统实现与实验第37-45页
        3.4.1 实验平台第37-39页
        3.4.2 状态环境的划分第39页
        3.4.3 机器人动作行为的定义第39-40页
        3.4.4 奖惩回报函数的设定第40页
        3.4.5 实验结果与分析第40-45页
    3.5 本章小结第45-46页
第四章 基于意图推理的交互式强化学习第46-68页
    4.1 引言第46-47页
    4.2 基本交互式强化学习算法第47-50页
        4.2.1 交互式强化学习算法第47-48页
        4.2.2 探索与利用第48-50页
    4.3 基于贪婪指导的交互式强化学习算法第50-54页
    4.4 基于意图推理的交互式强化学习算法第54-59页
        4.4.1 奖惩意图的建模与推理第55-57页
        4.4.2 指导意图的建模与推理第57-58页
        4.4.3 算法设计第58-59页
    4.5 实验设计与结果分析第59-66页
        4.5.1 实验任务设计第60-62页
        4.5.2 对比实验设计第62页
        4.5.3 实验结果与分析第62-66页
    4.6 本章小结第66-68页
第五章 总结与展望第68-70页
    5.1 论文工作总结第68-69页
    5.2 研究展望第69-70页
参考文献第70-77页
致谢第77-78页
攻读硕士学位期间已发表或录用的论文第78-80页

论文共80页,点击 下载论文
上一篇:基于体验视角下的承德平泉县文化旅游资源开发研究
下一篇:复杂背景中红外微弱目标检测与识别