ABSTRACT | 第5-6页 |
摘要 | 第7-14页 |
符号对照表 | 第14-16页 |
缩略语对照表 | 第16-24页 |
1. Introduction | 第24-40页 |
1.1 Scope and Motivation | 第24-26页 |
1.2 Room Acoustics and Reverberation Evaluation | 第26-28页 |
1.3 Effects of Reverberation | 第28-31页 |
1.3.1 Effects of Reverberation on Speech Perception | 第28页 |
1.3.2 Effects of Reverberation on Automatic Speech Recognition | 第28-31页 |
1.4 Signal Model and Problem Formulation | 第31页 |
1.5 Related Works | 第31-36页 |
1.5.1 Speech Enhancement Approaches | 第32-33页 |
1.5.2 Channel Inversion and Equalization | 第33-34页 |
1.5.3 Beamforming Using Microphone Arrays | 第34-36页 |
1.6 Contributions and Organization | 第36-40页 |
1.6.1 Contributions | 第37-38页 |
1.6.2 Organization | 第38-40页 |
2. Deep Neural Network Approach to Speech Dereverberation | 第40-64页 |
2.1 Introduction | 第40-41页 |
2.2 System Overview | 第41-46页 |
2.2.1 DNN Training Procedure | 第42-44页 |
2.2.2 Feature Extraction | 第44-45页 |
2.2.3 Waveform Reconstruction | 第45-46页 |
2.3 Output Layer Activation and Target Feature Normalization | 第46-48页 |
2.3.1 Sigmoid Activation and Min-Max Normalization | 第46-47页 |
2.3.2 Linear Activation and Mean-Variance Normalization | 第47-48页 |
2.4 Experiment and Analysis | 第48-56页 |
2.4.1 Evaluation with 40-Hour Training Data | 第49-53页 |
2.4.2 Evaluation with 4-Hour Training Data | 第53-56页 |
2.5 Discussions on Generalization Capabilities | 第56-58页 |
2.5.1 Generalization to Room Sizes | 第56-57页 |
2.5.2 Generalization to Loudspeaker and Microphone Positions | 第57页 |
2.5.3 Generalization to Recorded RIRs | 第57-58页 |
2.6 The Importance of Phase in Speech Dereverberation | 第58-61页 |
2.6.1 Experiment Valiation | 第58-60页 |
2.6.2 Frequency Sampling of STFT on Unwrapped Phase | 第60-61页 |
2.7 Conclusion | 第61-64页 |
3. Reverberation-Time-Aware DNN Approach to Speech Dereverberation | 第64-78页 |
3.1 Introduction | 第64-65页 |
3.2 System Overview | 第65-66页 |
3.3 Key Parameters in DNN Dereverberation | 第66-67页 |
3.3.1 Frame Shift Size in Speech Framing | 第66-67页 |
3.3.2 Acoustic Context Window Size at DNN Input | 第67页 |
3.4 Experiment and Analysis | 第67-72页 |
3.4.1 Frame-Shift-Aware DNN(FSA-DNN oracle) | 第68-70页 |
3.4.2 Acoustic-Context-Aware DNN(ACA-DNN oracle) | 第70-71页 |
3.4.3 Reverberation-Time-Aware DNN(RTA-DNN oracle) | 第71页 |
3.4.4 Reverberation-Time-Aware DNN(Estimated RT60) | 第71-72页 |
3.5 Discussions on Generalization Capabilities | 第72-76页 |
3.5.1 Generalization to Room Sizes | 第75页 |
3.5.2 Generalization to Loudspeaker and Microphone Positions | 第75-76页 |
3.5.3 Generalization to Recorded RIRs | 第76页 |
3.6 Conclusion | 第76-78页 |
4. Reverberation-Time-Aware DNN Approach for Microphone Array Dereverberation | 第78-102页 |
4.1 Introduction | 第78-80页 |
4.2 System Overview | 第80-88页 |
4.2.1 Standard Multi-Microphone DNN-based Systems | 第80-81页 |
4.2.2 Proposed Multi-Microphone DNN-based System (DNNSpatial) | 第81-83页 |
4.2.3 Proposed Reverberation-Time-Aware DNNSpatial (RTA-DNNSpatial) | 第83-88页 |
4.3 Experiment and Analysis | 第88-96页 |
4.3.1 DNNSpatial | 第88-92页 |
4.3.2 RTA-DNNSpatial | 第92-96页 |
4.4 Discussions on Generalization Capabilities | 第96-99页 |
4.4.1 Generalization to Room Size | 第96-97页 |
4.4.2 Generalization to Array Geometry | 第97页 |
4.4.3 Generalization to Loudspeaker Position | 第97-98页 |
4.4.4 Robustness to RT60 Estimation Error | 第98-99页 |
4.5 Conclusion | 第99-102页 |
5. End-to-End Deep Learning for Speech Dereverberation and Recognition | 第102-124页 |
5.1 Introduction | 第102-107页 |
5.2 System Overview | 第107-111页 |
5.2.1 Reverberant Speech Characteristics | 第108页 |
5.2.2 Dereverberation Module | 第108-109页 |
5.2.3 Recognition Module | 第109-110页 |
5.2.4 End-to-End Dereverberation and Robust Speech Recognition | 第110-111页 |
5.3 Experimental Setup | 第111-114页 |
5.3.1 Dereverberation Module Configuration | 第113页 |
5.3.2 Recognition Module Configuration | 第113-114页 |
5.4 Experimental Results | 第114-122页 |
5.4.1 Speech Dereverberation Results | 第114-115页 |
5.4.2 ASR Results with Clean-Condition Training | 第115-117页 |
5.4.3 ASR Results with Multi-Condition Training | 第117-118页 |
5.4.4 ASR Results with Multi-Channel-Condition (MCC) Training | 第118-120页 |
5.4.5 ASR Results with MCC Training and MCC Testing | 第120页 |
5.4.6 A Preliminary Investigation with Real Recordings | 第120-122页 |
5.5 Conclusion | 第122-124页 |
6. Conclusion | 第124-130页 |
6.1 Contributions | 第124-127页 |
6.2 Suggestions for Future Research | 第127-130页 |
Reference | 第130-140页 |
Acknowledgement | 第140-142页 |
作者简介 | 第142-143页 |