首页--文化、科学、教育、体育论文--信息与知识传播论文--图书馆学、图书馆事业论文--文献标引与编目论文

基于英汉双语平行语料库的句法级知识挖掘和抽取研究

摘要第5-7页
Abstract第7-8页
第1章 引言第15-21页
    1.1 课题提出第15页
    1.2 研究意义第15-17页
        1.2.1 情报学方面第15-16页
        1.2.2 自然语言处理方面第16-17页
    1.3 研究方法第17-18页
    1.4 研究技术路线第18页
    1.5 本文研究的创新点第18-19页
    1.6 文章结构和所用资源第19-21页
        1.6.1 文章结构第19-20页
        1.6.2 研究所用资源第20-21页
第2章 相关研究综述第21-38页
    2.1 面向网络获取相关英汉双语平行语料的概述第21-22页
    2.2 词汇句法功能分布的相关研究概况第22-28页
        2.2.1 词汇句法功能的概念第22页
        2.2.2 词汇句法功能相关研究概述第22-25页
        2.2.3 洛特卡定律的研究概况第25-28页
    2.3 短语结构知识抽取的相关研究综述第28-33页
        2.3.1 短语结构抽取研究总体概况第28-30页
        2.3.2 介宾短语结构知识抽取研究现状第30-33页
    2.4 类别知识挖掘的相关研究第33-36页
        2.4.1 双语或多语词汇序列在文本聚类中的相关研究第33-34页
        2.4.2 英汉双语聚类中的停用词和词干或词形还原相关研究第34-35页
        2.4.3 双语或多语词汇和词性序列知识在文本聚类中的相关研究第35-36页
    2.5 小结第36-38页
第3章 面向网络的英汉双语平行语料库自动构建第38-47页
    3.1 确定获取语料网站和制定抓取词汇底表第38-41页
        3.1.1 确定获取语料网站第38-40页
        3.1.2 制定抓取网页的底表第40-41页
    3.2 网页的抓取和英汉双语平行语料的抽取第41-46页
        3.2.1 含有英汉双语平行语料网页的抓取第41-43页
        3.2.2 英汉双语平行语料对的抽取和后续整理和加工第43-46页
    3.3 小结第46-47页
第4章 基于英汉双语平行语料库的词汇句法功能分布复杂度呈现规律的知识挖掘第47-88页
    4.1 词汇句法功能分布复杂度统计数据源简介和句法结构调整第47-62页
        4.1.1 统计数据来源简介第47-51页
        4.1.2 相应句法结构调整第51-62页
    4.2 词汇句法功能分布复杂度的获取第62-74页
        4.2.1 基于调整结果完成对树库的结构转换第62-64页
        4.2.2 词汇句法功能分布复杂度的获取第64-74页
    4.3 词汇句法功能分布复杂度的洛特卡现象揭示第74-86页
        4.3.1 英汉词汇句法功能分布复杂度分析第74-81页
        4.3.2 英汉词汇句法功能分布复杂度的洛特卡现象第81-86页
    4.4 小结第86-88页
第5章 基于英汉双语平行语料库的短语结构知识抽取——以介宾短语结构为例第88-116页
    5.1 英汉双语介宾短语结构句法特征统计分析第88-103页
        5.1.1 句法功能与外部连接第88-93页
        5.1.2 介宾短语结构内部句法特征分析第93-103页
    5.2 有关介宾短语结构知识抽取模型构建的相关介绍和预处理第103-112页
        5.2.1 相关统计机器学习模型简介和确定第104-106页
        5.2.2 机器学习工具选择和语料预处理第106-109页
        5.2.3 机器学习特征模板的确定第109-111页
        5.2.4 知识抽取模型构建的整个流程和评价方法第111-112页
    5.3 介宾短语结构知识抽取模型的确定和英汉双语介宾短语结构知识的抽取第112-115页
        5.3.1 基于自身特征模板的知识抽取模型训练和性能对比第112-114页
        5.3.2 基于添加特征模板的汉英介宾短语结构知识抽取模型构建第114-115页
        5.3.3 面向英汉双语平行语料库的英汉介宾短语结构知识抽取第115页
    5.4 小结第115-116页
第6章 基于英汉双语平行语料库的复杂短语级类别知识挖掘第116-133页
    6.1 面向英汉双语专门复杂短语平行语料的聚类和词干或词形算法确定第116-119页
        6.1.1 基于实验的类别知识挖掘聚类算法确定第116-118页
        6.1.2 基于实验的英语词干或词形还原算法确定第118-119页
    6.2 语料的预处理和相关统计第119-123页
        6.2.1 语料简介第119-121页
        6.2.2 英汉双语复杂短语平行语料的字符处理第121-122页
        6.2.3 中英文预处理第122-123页
    6.3 面向英汉双语复杂短语平行语料的词性选择第123-126页
    6.4 基于英汉双语复杂短语平行语料的类别知识挖掘第126-132页
        6.4.1 英汉双语词汇特征在类别知识挖掘中的性能第126-129页
        6.4.2 基于英汉词性的英汉双语复杂短语平行语料类别知识挖掘第129-132页
    6.5 小结第132-133页
第7章 结语第133-135页
    7.1 研究工作总结第133-134页
    7.2 下一步的研究计划第134-135页
参考文献第135-143页
附录1 相关词性标注集和训练模板第143-152页
附录2 攻读博士学位期间主要科研成果及奖励第152-156页
致谢第156-158页

论文共158页,点击 下载论文
上一篇:金融服务者法定义务的立法研究
下一篇:磁纳米结构中自旋极化输运和自旋动力学的研究