首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

基于深度学习模型的说话人识别算法研究

Abstract第4页
Acknowledgements第6-16页
1 Introduction第16-26页
    1.1 Background第16-18页
    1.2 Speaker Recognition第18-19页
    1.3 Fundamentals of Speaker Recognition第19-20页
    1.4 Research Questions第20-21页
    1.5 Contribution of the Thesis第21-22页
    1.6 Thesis Structure第22-26页
2 Literature Review第26-44页
    2.1 Introduction第26页
    2.2 Deep Learning第26-31页
        2.2.1 Shallow vs Deep Architecture-Why do we need Deep Architecture?第27-29页
        2.2.2 Approach towards Deep Learning第29-31页
    2.3 Deep Belief Network第31-34页
    2.4 Introduction to Speech Features第34-37页
        2.4.1 Speech Features Categorization第34-37页
    2.5 Mel Frequency Cepstral Coefficients第37-40页
        2.5.1 Major steps第37-38页
        2.5.2 Explanation第38-39页
        2.5.3 Delta and Delta-Delta coefficients第39-40页
    2.6 Support Vector Machines第40-44页
        2.6.1 SVM as large-margin boundary classifier第41-44页
3 Deep Hybrid Features for Speaker Recognition第44-60页
    3.1 Introduction第44-50页
        3.1.1 Restricted Boltzmann Machine第45-48页
        3.1.2 Contrastive Divergence Algorithm第48-49页
        3.1.3 Learning Audio Data with RBM第49-50页
    3.2 Convolutional Deep Belief Networks for Speaker Identification第50页
    3.3 Deep Hybrid Features-DHyF第50-54页
        3.3.1 Previous Work第51-52页
        3.3.2 Speaker Recognition Pipeline第52页
        3.3.3 Features Learning第52-54页
        3.3.4 Bag of Words Analogy第54页
        3.3.5 Classification第54页
    3.4 Experiment and Results第54-57页
    3.5 Conclusion第57-60页
4 Convolutional Data for Deep Audio Learning第60-70页
    4.1 Introduction第60页
    4.2 Convolutional Data第60-62页
    4.3 Proposed Approach第62页
    4.4 Initial Experimentation第62-63页
    4.5 Future Direction on Convolutional Data第63-70页
5 The super vector and i-vector paradigms for speaker recognition第70-78页
    5.1 Introduction第70页
    5.2 Super vectors第70-71页
    5.3 i-vectors第71-73页
    5.4 NIST i-vector challenge第73页
    5.5 Baseline-Cosine Distance Scoring第73-74页
    5.6 Performance Metric第74页
    5.7 Late Fusion Approach第74-75页
    5.8 Results第75-76页
    5.9 Couclusion第76-78页
6 Automatic Speech Recognition of Urdu第78-92页
    6.1 Introduction第78-79页
    6.2 Background第79-80页
    6.3 Previous Work on Urdu ASR第80-81页
    6.4 Methodology第81-83页
        6.4.1 Mel Frequency Cepstral Coefficients第81页
        6.4.2 Classification Techniques第81-83页
        6.4.3 Linear Discriminant Analysis第83页
    6.5 Experimental Setup第83-85页
        6.5.1 Dataset第83页
        6.5.2 Confusion Matrix第83-84页
        6.5.3 Comparison with DWT features第84-85页
    6.6 Conclusion第85-92页
7 Conclusion and Future Work第92-96页
    7.1 Conclusion第92-94页
    7.2 Future Work第94-96页
A Useful Resources第96-98页
    A.1 Software Tools第96页
    A.2 Useful Links第96-98页
B Algorithms第98-100页
    B.1 MFCC Calculation第98-99页
    B.2 Contrastive Divergence第99-100页
C Authors' Publication(first author/co-author)第100-102页
Bibliography第102-120页
作者简历及在学研究成果第120-122页
学位论女数据集第122页

论文共122页,点击 下载论文
上一篇:车联网中观仿真系统仿真代理层的设计与实现
下一篇:流媒体业务性能测量探针的设计与实现