致谢 | 第5-8页 |
摘要 | 第8-10页 |
Abstract | 第10-11页 |
第一章 引言 | 第25-41页 |
1.1 研究背景 | 第25-28页 |
1.2 本研究的理论及实践意义 | 第28-33页 |
1.2.1 论意义 | 第28-30页 |
1.2.2 实践意义 | 第30-33页 |
1.3 本研究概述 | 第33-39页 |
1.3.1 研究目的 | 第33页 |
1.3.2 研究问题及研究对象 | 第33-34页 |
1.3.3 研究步骤 | 第34-39页 |
1.3.3.1 语料及预处理 | 第35页 |
1.3.3.2 特征集的建立及其转换 | 第35-37页 |
1.3.3.3 权重计算 | 第37-38页 |
1.3.3.4 索引行聚类 | 第38-39页 |
1.3.3.5 型式提取 | 第39页 |
1.4 论文结构 | 第39-40页 |
1.5 小结 | 第40-41页 |
第二章 型式与型式语法 | 第41-65页 |
2.1 型式 | 第41-49页 |
2.1.1 型式研究的缘起与发展 | 第41-44页 |
2.1.2 型式的定义 | 第44-45页 |
2.1.3 型式实例 | 第45-46页 |
2.1.4 型式元素及其编码 | 第46-48页 |
2.1.5 本研究中判别型式的六个标准 | 第48-49页 |
2.2 型式语法 | 第49-58页 |
2.2.1 短语学思想与习语原则 | 第49-51页 |
2.2.2 词汇与语法关系及各自地位 | 第51-55页 |
2.2.2.1 词汇语法不可分 | 第51-53页 |
2.2.2.2 词汇为中心的研究 | 第53-55页 |
2.2.3 型式与意义的关系 | 第55-58页 |
2.3 型式语法的优缺点 | 第58-63页 |
2.3.1 型式语法与传统语法差异 | 第58-59页 |
2.3.2 型式语法的优点 | 第59-60页 |
2.3.3 型式语法的不足 | 第60-63页 |
2.4 以型式语法为理论基础的相关研究 | 第63-64页 |
2.5 小结 | 第64-65页 |
第三章 型式识别方法与相关应用研究 | 第65-80页 |
3.1 型式识别标准 | 第65-66页 |
3.2 型式总结的必要性 | 第66-67页 |
3.3 型式的识别 | 第67-75页 |
3.3.1 型式的人工识别 | 第67-70页 |
3.3.2 型式人工识别辅助工具的开发 | 第70-71页 |
3.3.3 型式的自动识别 | 第71-75页 |
3.3.3.1 型式自动识别的理据 | 第71-73页 |
3.3.3.2 型式的自动识别研究 | 第73-75页 |
3.4 现有的语言型式网络平台数据库 | 第75-79页 |
3.4.1 基于机器处理的网络数据库 | 第76-77页 |
3.4.2 基于人工处理的网络数据库 | 第77-79页 |
3.5 小结 | 第79-80页 |
第四章 聚类分析 | 第80-93页 |
4.1 文本表示 | 第81-82页 |
4.2 特征选择及其权重 | 第82-83页 |
4.2.1 特征选择 | 第82页 |
4.2.2 权重计算 | 第82-83页 |
4.3 相似度计算 | 第83-87页 |
4.3.1 相似度计算的源起及理据 | 第84页 |
4.3.2 相似度计算方法 | 第84-85页 |
4.3.3 相似度分析在语言研究中的应用 | 第85-87页 |
4.4 聚类算法 | 第87-90页 |
4.4.1 划分聚类 | 第87-89页 |
4.4.2 层次聚类 | 第89-90页 |
4.5 聚类质量评价指标 | 第90-91页 |
4.6 聚类在本研究的应用理据 | 第91-92页 |
4.7 小结 | 第92-93页 |
第五章 文本预处理与特征集的建立及转换 | 第93-129页 |
5.1 研究概述 | 第93页 |
5.2 语料选取 | 第93-94页 |
5.3 研究工具 | 第94-95页 |
5.3.1 语料预处理工具 | 第94-95页 |
5.3.2 自主开发的模块及脚本 | 第95页 |
5.4 语料预处理流程 | 第95-97页 |
5.5 动词型式中的必要元素及其转换方法 | 第97-128页 |
5.5.1 型式列表中元素的总体特征 | 第98-100页 |
5.5.2 具体词形的处理方法 | 第100-114页 |
5.5.2.1 右侧搭配词处理方法 | 第100-113页 |
5.5.2.2 左侧搭配词处理方法 | 第113-114页 |
5.5.2.3 两侧搭配词处理方法 | 第114页 |
5.5.3 相邻单词组合的处理方法 | 第114-120页 |
5.5.4 词类标签及语义类标签的转换方法 | 第120-126页 |
5.5.4.1 词类标签的转换方法 | 第121-125页 |
5.5.4.2 语义类标签转换方法 | 第125-126页 |
5.5.5 转换顺序及步骤 | 第126-128页 |
5.6 小结 | 第128-129页 |
第六章 索引行聚类及型式自动提取方法 | 第129-140页 |
6.1 特征表示方法、特征权重与位置权重的计算 | 第129-136页 |
6.1.1 特征及特征权重 | 第129-135页 |
6.1.1.1 功能词处理方法 | 第129-130页 |
6.1.1.2 特征标记方法 | 第130-131页 |
6.1.1.3 型式边界的界定 | 第131-133页 |
6.1.1.4 索引行跨距的设定 | 第133-134页 |
6.1.1.5 特征权重计算方法 | 第134-135页 |
6.1.2 位置权重 | 第135-136页 |
6.1.3 特征-索引行矩阵的生成 | 第136页 |
6.2 聚类算法 | 第136-139页 |
6.2.1 相似度计算 | 第136-137页 |
6.2.2 K均值算法 | 第137-139页 |
6.2.2.1 K均值聚类 | 第137-138页 |
6.2.2.2 K值的选择标准 | 第138-139页 |
6.3 型式自动提取 | 第139页 |
6.4 小结 | 第139-140页 |
第七章 型式自动提取模型测试 | 第140-196页 |
7.1 模型调试数据集及模型验证集的构建 | 第140-145页 |
7.1.1 调试阶段语料集合的构成 | 第141-142页 |
7.1.2 验证集的创建过程 | 第142-145页 |
7.1.2.1 验证集中词项的选择 | 第143-144页 |
7.1.2.2 验证集中索引行的抽取及处理方法 | 第144-145页 |
7.2 配置文件的处理及参数设置与调整 | 第145-150页 |
7.2.1 配置文件处理顺序 | 第145-147页 |
7.2.2 参数设置与调整 | 第147-150页 |
7.2.2.1 特征权重计算方法调试过程与解决方法 | 第147-148页 |
7.2.2.2 位置权重计算方法调试过程及解决方法 | 第148-149页 |
7.2.2.3 每个特征的总体权重计算方法 | 第149页 |
7.2.2.4 跨距设定调试过程 | 第149-150页 |
7.3 测试数据的评价指标 | 第150-155页 |
7.3.1 聚类内部效度评估指标在本研究中的应用 | 第150-155页 |
7.3.2 聚类外部效度评估指标在本研究中的应用 | 第155页 |
7.4 数据结果报告 | 第155-184页 |
7.4.1 索引行中型式及型式元素分布特征 | 第155-162页 |
7.4.1.1 型式元素总体分布特征 | 第156-157页 |
7.4.1.2 与动词高频共现的特征及其频数 | 第157-160页 |
7.4.1.3 不同动词型式列表中特征的异同 | 第160-162页 |
7.4.2 K值确定下基于现有人工标签的型式自动识别效度分析 | 第162-170页 |
7.4.2.1 验证集中型式自动识别外部效度评估结果总体描述 | 第162-163页 |
7.4.2.2 实验动词的型式自动识别准确率及召回率 | 第163-170页 |
7.4.2.3 K值确定下型式自动识别后的再思考 | 第170页 |
7.4.3 K值不确定下基于现有人工标签的型式自动识别效度分析 | 第170-184页 |
7.4.3.1 K值不确定下型式自动识别的外部效度测量结果总体描述 | 第171-172页 |
7.4.3.2 K值不确定下型式自动识别的准确率及召回率 | 第172-183页 |
7.4.3.3 K值未知情况下模型验证的再思考 | 第183-184页 |
7.5 分析和讨论 | 第184-194页 |
7.5.1 数据背后的语言学思考 | 第184-188页 |
7.5.1.1 印证了分布假设 | 第184-185页 |
7.5.1.2 印证了词汇语法不可分 | 第185-186页 |
7.5.1.3 型式元素间的横组合关系 | 第186页 |
7.5.1.4 常规型式与非常规型式 | 第186-188页 |
7.5.2 影响部分型式自动识别错误的原因 | 第188-192页 |
7.5.2.1 型式元素间的插入成分 | 第188-190页 |
7.5.2.2 无引导词THAT标志的从句识别 | 第190页 |
7.5.2.3 赋码错误 | 第190-191页 |
7.5.2.4 名词短语的识别问题 | 第191-192页 |
7.5.3 关于聚类外部效度测量结果的再思考 | 第192-193页 |
7.5.4 与前人研究结果的对比 | 第193-194页 |
7.6 小结 | 第194-196页 |
第八章 英语动词型式自动提取模型的应用设想 | 第196-207页 |
8.1 应用范围 | 第196-204页 |
8.1.1 型式自动识别与提取在语言教学领域的应用 | 第197-198页 |
8.1.1.1 型式自动识别与提取在教学大纲制定中的应用 | 第197页 |
8.1.1.2 型式自动识别与提取在语言课堂教学中的应用 | 第197-198页 |
8.1.1.3 型式的自动识别与提取可以服务于学习者自主学习 | 第198页 |
8.1.2 型式自动识别与提取在语言研究中的应用 | 第198-203页 |
8.1.2.1 型式自动提取在词典编纂中的应用 | 第198-199页 |
8.1.2.2 型式自动提取模型对非常规用法的识别 | 第199-200页 |
8.1.2.3 型式自动识别在语言学研究中的应用 | 第200-203页 |
8.1.3 型式自动识别与提取在其他领域的应用可能 | 第203-204页 |
8.2 应用时需要注意的问题 | 第204-206页 |
8.2.1 语料及语料的赋码 | 第204-205页 |
8.2.2 聚类时参数的设置 | 第205-206页 |
8.3 小结 | 第206-207页 |
第九章 研究发现及价值 | 第207-223页 |
9.1 研究发现 | 第207-212页 |
9.1.1 索引行聚类的影响因素及分组数量的选择 | 第207-209页 |
9.1.1.1 索引行聚类的影响因素 | 第207-208页 |
9.1.1.2 索引行聚类时簇数量的选择 | 第208-209页 |
9.1.2 型式自动识别的准确率及其影响因素 | 第209-210页 |
9.1.2.1 型式自动识别准确率的提高 | 第209-210页 |
9.1.2.2 影响部分型式自动识别错误的因素 | 第210页 |
9.1.3 不同动词索引行中型式元素的分布存在差异 | 第210-212页 |
9.2 研究价值及创新之处 | 第212-220页 |
9.2.1 理论方面 | 第213-218页 |
9.2.1.1 对型式语法的反哺 | 第213-217页 |
9.2.1.2 对其他语言学理论的贡献 | 第217-218页 |
9.2.2 方法论方面 | 第218-219页 |
9.2.3 实践方面 | 第219-220页 |
9.3 本研究的不足之处 | 第220-221页 |
9.4 未来研究方向 | 第221-222页 |
9.5 小结 | 第222-223页 |
参考文献 | 第223-239页 |
附录 | 第239-249页 |