首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于样本增强的强化学习在对话管理中的应用

摘要第5-6页
ABSTRACT第6页
第1章 绪论第10-16页
    1.1 研究背景与动机第10-11页
    1.2 研究内容第11-13页
    1.3 组织结构第13-16页
第2章 相关工作第16-24页
    2.1 引言第16页
    2.2 对话策略第16-20页
        2.2.1 基于规则的方法第16-17页
        2.2.2 基于检索式的方法第17-18页
        2.2.3 基于监督学习的方法第18-19页
        2.2.4 基于强化学习的方法第19-20页
    2.3 基于强化学习的对话策略学习第20-22页
        2.3.1 经验回放第20-21页
        2.3.2 奖励塑形第21页
        2.3.3 高效探索第21-22页
        2.3.4 预训练第22页
    2.4 仿真用户第22-23页
    2.5 本章小结第23-24页
第3章 背景知识第24-30页
    3.1 引言第24页
    3.2 基于马尔科夫决策过程的对话管理第24-25页
    3.3 深度强化学习第25-28页
    3.4 本章小结第28-30页
第4章 有效对话片段生成算法第30-36页
    4.1 引言第30页
    4.2 用户目标和子目标第30-31页
    4.3 有效对话片段第31-32页
    4.4 有效对话片段生成算法第32-34页
    4.5 本章小结第34-36页
第5章 对话样本增强第36-42页
    5.1 引言第36页
    5.2 基本思想第36-37页
    5.3 截断式事后经验回放(T-HER)第37-38页
    5.4 拼接式事后经验回放(S-HER)第38-41页
    5.5 本章小结第41-42页
第6章 阈值自适应的拼接式经验回放第42-48页
    6.1 引言第42页
    6.2 阈值自适应拼接式经验回放第42-46页
        6.2.1 阈值策略第42-45页
        6.2.2 形式化定义第45-46页
    6.3 本章小结第46-48页
第7章 实验第48-60页
    7.1 实验环境第48-50页
    7.2 样例分析第50-52页
    7.3 实验结果第52-58页
        7.3.1 结合截断法和拼接法的深度Q网络第52-53页
        7.3.2 不同KL散度阈值对拼接法的影响第53-54页
        7.3.3 带优先级经验回放的样本增强方法第54-55页
        7.3.4 非热启动的对话策略学习第55-56页
        7.3.5 带有阈值自适应的拼接式经验回放第56-58页
    7.4 本章小结第58-60页
第8章 总结与展望第60-62页
    8.1 总结第60-61页
    8.2 展望第61-62页
参考文献第62-68页
致谢第68-70页
在读期间发表的学术论文与取得的研究成果第70页

论文共70页,点击 下载论文
上一篇:基于RBF神经网络的永磁同步电机控制系统
下一篇:半导体气体传感器温度调制模式优化研究