| ABSTRACT | 第5-6页 |
| 摘要 | 第7-14页 |
| 符号对照表 | 第14-16页 |
| 缩略语对照表 | 第16-24页 |
| 1. Introduction | 第24-40页 |
| 1.1 Scope and Motivation | 第24-26页 |
| 1.2 Room Acoustics and Reverberation Evaluation | 第26-28页 |
| 1.3 Effects of Reverberation | 第28-31页 |
| 1.3.1 Effects of Reverberation on Speech Perception | 第28页 |
| 1.3.2 Effects of Reverberation on Automatic Speech Recognition | 第28-31页 |
| 1.4 Signal Model and Problem Formulation | 第31页 |
| 1.5 Related Works | 第31-36页 |
| 1.5.1 Speech Enhancement Approaches | 第32-33页 |
| 1.5.2 Channel Inversion and Equalization | 第33-34页 |
| 1.5.3 Beamforming Using Microphone Arrays | 第34-36页 |
| 1.6 Contributions and Organization | 第36-40页 |
| 1.6.1 Contributions | 第37-38页 |
| 1.6.2 Organization | 第38-40页 |
| 2. Deep Neural Network Approach to Speech Dereverberation | 第40-64页 |
| 2.1 Introduction | 第40-41页 |
| 2.2 System Overview | 第41-46页 |
| 2.2.1 DNN Training Procedure | 第42-44页 |
| 2.2.2 Feature Extraction | 第44-45页 |
| 2.2.3 Waveform Reconstruction | 第45-46页 |
| 2.3 Output Layer Activation and Target Feature Normalization | 第46-48页 |
| 2.3.1 Sigmoid Activation and Min-Max Normalization | 第46-47页 |
| 2.3.2 Linear Activation and Mean-Variance Normalization | 第47-48页 |
| 2.4 Experiment and Analysis | 第48-56页 |
| 2.4.1 Evaluation with 40-Hour Training Data | 第49-53页 |
| 2.4.2 Evaluation with 4-Hour Training Data | 第53-56页 |
| 2.5 Discussions on Generalization Capabilities | 第56-58页 |
| 2.5.1 Generalization to Room Sizes | 第56-57页 |
| 2.5.2 Generalization to Loudspeaker and Microphone Positions | 第57页 |
| 2.5.3 Generalization to Recorded RIRs | 第57-58页 |
| 2.6 The Importance of Phase in Speech Dereverberation | 第58-61页 |
| 2.6.1 Experiment Valiation | 第58-60页 |
| 2.6.2 Frequency Sampling of STFT on Unwrapped Phase | 第60-61页 |
| 2.7 Conclusion | 第61-64页 |
| 3. Reverberation-Time-Aware DNN Approach to Speech Dereverberation | 第64-78页 |
| 3.1 Introduction | 第64-65页 |
| 3.2 System Overview | 第65-66页 |
| 3.3 Key Parameters in DNN Dereverberation | 第66-67页 |
| 3.3.1 Frame Shift Size in Speech Framing | 第66-67页 |
| 3.3.2 Acoustic Context Window Size at DNN Input | 第67页 |
| 3.4 Experiment and Analysis | 第67-72页 |
| 3.4.1 Frame-Shift-Aware DNN(FSA-DNN oracle) | 第68-70页 |
| 3.4.2 Acoustic-Context-Aware DNN(ACA-DNN oracle) | 第70-71页 |
| 3.4.3 Reverberation-Time-Aware DNN(RTA-DNN oracle) | 第71页 |
| 3.4.4 Reverberation-Time-Aware DNN(Estimated RT60) | 第71-72页 |
| 3.5 Discussions on Generalization Capabilities | 第72-76页 |
| 3.5.1 Generalization to Room Sizes | 第75页 |
| 3.5.2 Generalization to Loudspeaker and Microphone Positions | 第75-76页 |
| 3.5.3 Generalization to Recorded RIRs | 第76页 |
| 3.6 Conclusion | 第76-78页 |
| 4. Reverberation-Time-Aware DNN Approach for Microphone Array Dereverberation | 第78-102页 |
| 4.1 Introduction | 第78-80页 |
| 4.2 System Overview | 第80-88页 |
| 4.2.1 Standard Multi-Microphone DNN-based Systems | 第80-81页 |
| 4.2.2 Proposed Multi-Microphone DNN-based System (DNNSpatial) | 第81-83页 |
| 4.2.3 Proposed Reverberation-Time-Aware DNNSpatial (RTA-DNNSpatial) | 第83-88页 |
| 4.3 Experiment and Analysis | 第88-96页 |
| 4.3.1 DNNSpatial | 第88-92页 |
| 4.3.2 RTA-DNNSpatial | 第92-96页 |
| 4.4 Discussions on Generalization Capabilities | 第96-99页 |
| 4.4.1 Generalization to Room Size | 第96-97页 |
| 4.4.2 Generalization to Array Geometry | 第97页 |
| 4.4.3 Generalization to Loudspeaker Position | 第97-98页 |
| 4.4.4 Robustness to RT60 Estimation Error | 第98-99页 |
| 4.5 Conclusion | 第99-102页 |
| 5. End-to-End Deep Learning for Speech Dereverberation and Recognition | 第102-124页 |
| 5.1 Introduction | 第102-107页 |
| 5.2 System Overview | 第107-111页 |
| 5.2.1 Reverberant Speech Characteristics | 第108页 |
| 5.2.2 Dereverberation Module | 第108-109页 |
| 5.2.3 Recognition Module | 第109-110页 |
| 5.2.4 End-to-End Dereverberation and Robust Speech Recognition | 第110-111页 |
| 5.3 Experimental Setup | 第111-114页 |
| 5.3.1 Dereverberation Module Configuration | 第113页 |
| 5.3.2 Recognition Module Configuration | 第113-114页 |
| 5.4 Experimental Results | 第114-122页 |
| 5.4.1 Speech Dereverberation Results | 第114-115页 |
| 5.4.2 ASR Results with Clean-Condition Training | 第115-117页 |
| 5.4.3 ASR Results with Multi-Condition Training | 第117-118页 |
| 5.4.4 ASR Results with Multi-Channel-Condition (MCC) Training | 第118-120页 |
| 5.4.5 ASR Results with MCC Training and MCC Testing | 第120页 |
| 5.4.6 A Preliminary Investigation with Real Recordings | 第120-122页 |
| 5.5 Conclusion | 第122-124页 |
| 6. Conclusion | 第124-130页 |
| 6.1 Contributions | 第124-127页 |
| 6.2 Suggestions for Future Research | 第127-130页 |
| Reference | 第130-140页 |
| Acknowledgement | 第140-142页 |
| 作者简介 | 第142-143页 |