第一章 引言 | 第1-10页 |
1.1 传统语音学中的唇形研究 | 第6-7页 |
1.2 视听言语处理(AVSP) | 第7-10页 |
1.2.1 关于视觉信息对言语理解贡献大小的测试 | 第7-8页 |
1.2.2 多模态言语合成(Multimodal Speech Synthesis) | 第8页 |
1.2.3 多模态言语识别系统(AVSR) | 第8-9页 |
1.2.4 视听言语处理对唇形研究提出了新的要求 | 第9-10页 |
1.3 视觉言语研究的其它用途 | 第10页 |
第二章 视觉言语研究方法 | 第10-12页 |
2.1 视听言语数据库(Audio-Visual Speech Database)的建立 | 第10-11页 |
2.1.1 瑞典语 | 第10页 |
2.1.2 朝鲜语 | 第10-11页 |
2.1.3 汉语 | 第11页 |
2.2 视位(viseme)的提出 | 第11-12页 |
2.2.1 对视位的解释 | 第11页 |
2.2.2 一些国家的视位研究 | 第11-12页 |
2.2.2.1 瑞典语的视位研究 | 第11-12页 |
2.2.2.2 日语的视位研究 | 第12页 |
2.2.2.3 意大利语的视位研究 | 第12页 |
第三章 论文研究路线 | 第12-26页 |
3.1 有关视觉言语的一些认识 | 第12-14页 |
3.1.1 发音器官概述 | 第13页 |
3.1.2 不同视觉特征的言语分辨功能与研究参数的选定 | 第13-14页 |
3.1.3 视觉言语与表情 | 第14页 |
3.1.4 视觉言语中不同元音前辅音的处理问题 | 第14页 |
3.2 普通话唇形参数数据库的建立 | 第14-18页 |
3.2.1 实验设计考虑 | 第15-16页 |
3.2.1.1 发音人 | 第15页 |
3.2.1.2 发音材料 | 第15页 |
3.2.1.3 照明环境 | 第15页 |
3.2.1.4 标记 | 第15-16页 |
3.2.1.5 三维变化的实现 | 第16页 |
3.2.2 数据采集 | 第16页 |
3.2.2.1 设备 | 第16页 |
3.2.2.2 数据转换 | 第16页 |
3.2.3 数据测量 | 第16-18页 |
3.2.3.1 目标帧判定 | 第16-17页 |
3.2.3.2 参数测量平台 | 第17-18页 |
3.2.3.3 唇形参数数据库组成 | 第18页 |
3.3 普通话视位模型 | 第18-26页 |
3.3.1 数据分析 | 第19-24页 |
3.3.1.1 因子分析 | 第19-21页 |
3.3.1.2 对音素组进行聚类分析 | 第21-24页 |
3.3.2 视位与视位变体 | 第24-26页 |
3.3.2.1 视位 | 第24-26页 |
3.3.2.2 视位变体 | 第26页 |
第四章 局限及将来的工作 | 第26-27页 |
第五章 结论 | 第27-28页 |
参考文献 | 第28-31页 |
附录 | 第31-7页 |
附录1: 普通话视位研究字表 | 第31-32页 |
附录2: 数据分布直方图 | 第32-7页 |
图表目录 | 第7-34页 |
图1: 一例噪音环境中的言语可懂度测试 | 第7-14页 |
图2: 对11个测量参数的图示说明 | 第14-17页 |
图3: 唇形图序列示例——“哀”音节 | 第17-18页 |
图4: 参数测量平台界面 | 第18页 |
图5: 数据库音位分布频数 | 第18-21页 |
图6: 因子碎石图 | 第21-23页 |
图7: 分层聚类树形图 | 第23-25页 |
图8: 视位聚类 | 第25-11页 |
表1: Amcoff(1970),Mártony(1970)和Mártony等(1970)所得出的瑞典语视位 | 第11-19页 |
表2: 11个唇形参数间的相关矩阵 | 第19-20页 |
表3: 因子分析结果 | 第20页 |
表4: 因子负荷矩阵 | 第20-22页 |
表5: 各音素组的样本数及因子得分平均值 | 第22-24页 |
表6: 音素组的初始分类 | 第24-25页 |
表7: 普通话视位雏形 | 第25页 |
表8: 视位的三参数描述 | 第25-26页 |
表9: 对视位变体的描述 | 第26-34页 |
后记 | 第34页 |