| 摘要 | 第1-6页 |
| ABSTRACT | 第6-11页 |
| 第一章 引言 | 第11-13页 |
| ·研究内容和主要工作 | 第11-12页 |
| ·论文组织结构 | 第12-13页 |
| 第二章 计算语音场景分析 | 第13-22页 |
| ·系统框架 | 第13页 |
| ·耳蜗图(cochleagram) | 第13-14页 |
| ·伽马通特征(Gammatone Feature,GF) | 第14-15页 |
| ·理想二值掩蔽 | 第15-17页 |
| ·输出合成 | 第17页 |
| ·性能评估 | 第17-19页 |
| ·语音特征 | 第19-20页 |
| ·基音(Pitch),谐波结构 | 第19页 |
| ·振幅调制谱(Amplitude Modulation Spectrum,AMS) | 第19-20页 |
| ·其它特征 | 第20页 |
| ·分类观点下的计算听觉场景分析 | 第20-21页 |
| ·相关工作 | 第21页 |
| ·本章小结 | 第21-22页 |
| 第三章 参考系统 | 第22-32页 |
| ·深度神经网络 | 第22-29页 |
| ·深度信念网络 | 第25页 |
| ·受限玻尔兹曼机 | 第25-28页 |
| ·受限玻尔兹曼机-深度信念网络-深度神经网络 | 第28-29页 |
| ·实现细节 | 第29-30页 |
| ·基于深度神经网络的语音分离模型 | 第29页 |
| ·基于支持向量机的语音分离模型 | 第29-30页 |
| ·数据集 | 第30页 |
| ·实验结果 | 第30-31页 |
| ·本章小结 | 第31-32页 |
| 第四章 系统描述 | 第32-36页 |
| ·特征选择 | 第32-33页 |
| ·“帧”级特征 | 第32-33页 |
| ·预处理 | 第33页 |
| ·模型 | 第33-35页 |
| ·后处理 | 第34-35页 |
| ·本章小结 | 第35-36页 |
| 第五章 实验结果 | 第36-40页 |
| ·基本思想验证 | 第36页 |
| ·泛化性能分析 | 第36-37页 |
| ·实验结果 | 第37-39页 |
| ·后续工作 | 第39页 |
| ·本章小结 | 第39-40页 |
| 第六章 层叠神经网络 | 第40-48页 |
| ·信息全面的必要性 | 第40-41页 |
| ·信息反馈的必要性 | 第41-42页 |
| ·概念层次的必要性 | 第42-44页 |
| ·层叠神经网络 | 第44-45页 |
| ·层叠神经网络的进化解释 | 第45页 |
| ·层叠神经网络的其它实验证据 | 第45-47页 |
| ·本章小结 | 第47-48页 |
| 第七章 总结与展望 | 第48-49页 |
| 参考文献 | 第49-52页 |
| 致谢 | 第52-53页 |
| 攻读硕士期间发表的学术论文 | 第53-54页 |
| 攻读硕士期间参加的科研项目 | 第54页 |