人眼驱动语音合成的若干关键技术研究

摘要	第1-7页
Abstract	第7-13页
第一章绪论	第13-22页
第一节问题的背景和意义	第13-14页
·问题的研究背景	第13页
·课题的研究意义	第13-14页
第二节语音合成的发展	第14-15页
第三节语音合成的一般过程	第15-18页
·文本分析	第16-17页
·韵律生成	第17-18页
·声学合成	第18页
第四节汉语言的韵律结构	第18-20页
第五节本文的主要研究工作	第20-21页
第六节论文结构	第21-22页
第二章系统研究平台及工作流程	第22-41页
第一节本文工作的研究平台	第22-23页
第二节韵律生成模块	第23-34页
·能量参数提取	第25-26页
·基频参数提取	第26-31页
·韵律规则分析	第31-34页
第三节眼动信号获取平台	第34-38页
·眼动跟踪技术	第34-37页
·眼动实验操作流程	第37-38页
第四节人眼驱动语音合成系统的工作流程	第38-40页
第五节本章小结	第40-41页
第三章基于韵律结构的眼动注视时长模型	第41-64页
第一节阅读—眼动模型	第41-51页
·Morrison 注意转移模型	第42-43页
·Henderson & Ferreira 截止期限模型	第43-44页
·Reichle E-Z Reader 模型	第44-47页
·副中央神经窝的预视加工作用	第47页
·眼动阅读内隐韵律表达	第47-48页
·眼动注视和语音编码的同步性	第48-51页
第二节阅读的眼动行为及指标	第51-58页
·单次注视时长(Single Fixation Duration)	第54-55页
·首次注视时长(First Fixation Duration)	第55页
·注视次数(Fixation Count)	第55页
·凝视时长(Gaze Duration)	第55-56页
·回视时长（Regression Duration）	第56页
·总注视时长(Total Fixation Duration)	第56-57页
·眼跳时长(Saccade Duration)	第57-58页
第三节眼动注视时长模型	第58-62页
·基于层级韵律的眼动注视时长模型	第58-61页
·停顿时长	第61-62页
第四节本章小结	第62-64页
第四章基于 ELM 和 SELM 的重音预测	第64-99页
第一节汉语言的重音	第65-70页
·汉语言的重音分类	第65-66页
·汉语言重音在时长上的声学表现	第66-68页
·汉语言的重音预测	第68-70页
第二节 ELM 极限学习机的理论和计算	第70-75页
·单隐层前馈神经网络的缺陷与 ELM 的改进	第70页
·ELM 极限学习机的基本问题	第70-74页
·ELM 极限学习机的构造	第74-75页
第三节半监督的极限学习机 SELM	第75-83页
·半监督的机器学习方法	第75-77页
·基于半监督策略的极限学习机 SELM	第77-83页
第四节基于 ELM 与 SELM 的重音预测实验	第83-92页
·语法特征向量	第83-85页
·实验语料	第85-86页
·实验结果及对比	第86-92页
第五节基于眼动信号的重音预测实验	第92-97页
·眼动重音预测的实验设计	第92-95页
·眼动重音预测的实验结果	第95-97页
第六节本章小结	第97-99页
第五章基于 ED_Fujisaki 模型的韵律生成	第99-122页
第一节人眼驱动的汉语语音基频模型 ED_Fujisaki	第99-105页
·基频模型	第100页
·Fujisaki 模型	第100-102页
·改进的 Fujisaki 模型 ED_Fujisaki	第102-105页
第二节 ED_Fujisaki 模型的语调提取分析	第105-113页
·语调提取	第105-107页
·语调调型分析	第107-113页
第三节人眼驱动合成语音	第113-121页
·原始语音合成	第115-116页
·基频韵律参数调整	第116-118页
·基于眼动时长模板的时长调整	第118页
·人眼驱动语音合成的听测实验	第118-121页
第四节本章小结	第121-122页
第六章总结与展望	第122-124页
第一节主要工作和创新点	第122-123页
第二节进一步的工作	第123-124页
参考文献	第124-130页
致谢	第130-131页
个人简历在学期间发表的学术论文与研究成果	第131-132页