基于深度神经网络的语音去混响方法研究

ABSTRACT	第5-6页
摘要	第7-14页
符号对照表	第14-16页
缩略语对照表	第16-24页
1. Introduction	第24-40页
1.1 Scope and Motivation	第24-26页
1.2 Room Acoustics and Reverberation Evaluation	第26-28页
1.3 Effects of Reverberation	第28-31页
1.3.1 Effects of Reverberation on Speech Perception	第28页
1.3.2 Effects of Reverberation on Automatic Speech Recognition	第28-31页
1.4 Signal Model and Problem Formulation	第31页
1.5 Related Works	第31-36页
1.5.1 Speech Enhancement Approaches	第32-33页
1.5.2 Channel Inversion and Equalization	第33-34页
1.5.3 Beamforming Using Microphone Arrays	第34-36页
1.6 Contributions and Organization	第36-40页
1.6.1 Contributions	第37-38页
1.6.2 Organization	第38-40页
2. Deep Neural Network Approach to Speech Dereverberation	第40-64页
2.1 Introduction	第40-41页
2.2 System Overview	第41-46页
2.2.1 DNN Training Procedure	第42-44页
2.2.2 Feature Extraction	第44-45页
2.2.3 Waveform Reconstruction	第45-46页
2.3 Output Layer Activation and Target Feature Normalization	第46-48页
2.3.1 Sigmoid Activation and Min-Max Normalization	第46-47页
2.3.2 Linear Activation and Mean-Variance Normalization	第47-48页
2.4 Experiment and Analysis	第48-56页
2.4.1 Evaluation with 40-Hour Training Data	第49-53页
2.4.2 Evaluation with 4-Hour Training Data	第53-56页
2.5 Discussions on Generalization Capabilities	第56-58页
2.5.1 Generalization to Room Sizes	第56-57页
2.5.2 Generalization to Loudspeaker and Microphone Positions	第57页
2.5.3 Generalization to Recorded RIRs	第57-58页
2.6 The Importance of Phase in Speech Dereverberation	第58-61页
2.6.1 Experiment Valiation	第58-60页
2.6.2 Frequency Sampling of STFT on Unwrapped Phase	第60-61页
2.7 Conclusion	第61-64页
3. Reverberation-Time-Aware DNN Approach to Speech Dereverberation	第64-78页
3.1 Introduction	第64-65页
3.2 System Overview	第65-66页
3.3 Key Parameters in DNN Dereverberation	第66-67页
3.3.1 Frame Shift Size in Speech Framing	第66-67页
3.3.2 Acoustic Context Window Size at DNN Input	第67页
3.4 Experiment and Analysis	第67-72页
3.4.1 Frame-Shift-Aware DNN(FSA-DNN oracle)	第68-70页
3.4.2 Acoustic-Context-Aware DNN(ACA-DNN oracle)	第70-71页
3.4.3 Reverberation-Time-Aware DNN(RTA-DNN oracle)	第71页
3.4.4 Reverberation-Time-Aware DNN(Estimated RT60)	第71-72页
3.5 Discussions on Generalization Capabilities	第72-76页
3.5.1 Generalization to Room Sizes	第75页
3.5.2 Generalization to Loudspeaker and Microphone Positions	第75-76页
3.5.3 Generalization to Recorded RIRs	第76页
3.6 Conclusion	第76-78页
4. Reverberation-Time-Aware DNN Approach for Microphone Array Dereverberation	第78-102页
4.1 Introduction	第78-80页
4.2 System Overview	第80-88页
4.2.1 Standard Multi-Microphone DNN-based Systems	第80-81页
4.2.2 Proposed Multi-Microphone DNN-based System (DNNSpatial)	第81-83页
4.2.3 Proposed Reverberation-Time-Aware DNNSpatial (RTA-DNNSpatial)	第83-88页
4.3 Experiment and Analysis	第88-96页
4.3.1 DNNSpatial	第88-92页
4.3.2 RTA-DNNSpatial	第92-96页
4.4 Discussions on Generalization Capabilities	第96-99页
4.4.1 Generalization to Room Size	第96-97页
4.4.2 Generalization to Array Geometry	第97页
4.4.3 Generalization to Loudspeaker Position	第97-98页
4.4.4 Robustness to RT60 Estimation Error	第98-99页
4.5 Conclusion	第99-102页
5. End-to-End Deep Learning for Speech Dereverberation and Recognition	第102-124页
5.1 Introduction	第102-107页
5.2 System Overview	第107-111页
5.2.1 Reverberant Speech Characteristics	第108页
5.2.2 Dereverberation Module	第108-109页
5.2.3 Recognition Module	第109-110页
5.2.4 End-to-End Dereverberation and Robust Speech Recognition	第110-111页
5.3 Experimental Setup	第111-114页
5.3.1 Dereverberation Module Configuration	第113页
5.3.2 Recognition Module Configuration	第113-114页
5.4 Experimental Results	第114-122页
5.4.1 Speech Dereverberation Results	第114-115页
5.4.2 ASR Results with Clean-Condition Training	第115-117页
5.4.3 ASR Results with Multi-Condition Training	第117-118页
5.4.4 ASR Results with Multi-Channel-Condition (MCC) Training	第118-120页
5.4.5 ASR Results with MCC Training and MCC Testing	第120页
5.4.6 A Preliminary Investigation with Real Recordings	第120-122页
5.5 Conclusion	第122-124页
6. Conclusion	第124-130页
6.1 Contributions	第124-127页
6.2 Suggestions for Future Research	第127-130页
Reference	第130-140页
Acknowledgement	第140-142页
作者简介	第142-143页