首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

古代汉语史书语料库建设的初步研究

摘要第5-6页
Abstract第6页
目录第7-11页
第1章 背景与工作介绍第11-25页
    1.1 背景第11-16页
        1.1.1 时代的需求第11-12页
        1.1.2 自然语言处理的内容第12-14页
        1.1.3 自然语言处理的定义第14-16页
    1.2 自然语言处理的历史发展第16-19页
        1.2.1 开创时期第16-17页
        1.2.2 理性主义盛行时期第17-18页
        1.2.3 经验主义复苏时期第18页
        1.2.4 繁荣时期第18页
        1.2.5 研究现状第18-19页
    1.3 语料库第19-23页
        1.3.1 语料库的分类第19-20页
        1.3.2 国外的语料库建设第20-21页
        1.3.3 国内的语料库建设第21页
        1.3.4 国内的古代汉语语料库建设第21-23页
    1.4 本文工作介绍第23-25页
        1.4.1 古代汉语史书语料库建设的一般过程与通用算法第23-24页
        1.4.2 基本的索引与检索工具第24页
        1.4.3 主要算法与数据结构第24页
        1.4.4 系统设计与一整套工具软件的开发第24页
        1.4.5 《资治通鉴》语料库的具体构建第24-25页
第2章 史书语料库建设的流程与算法第25-39页
    2.1 语料的选择第25-26页
    2.2 编码问题第26-28页
        2.2.1 编码的选择第26-27页
        2.2.2 私用汉字编码第27-28页
    2.3 标注格式的确定第28-29页
    2.4 网页文档到粗糙语料的转化第29-32页
    2.5 字符层面的清洁第32-34页
    2.6 断句、断句标点的清洁第34-38页
    2.7 本章小结第38-39页
第3章 语料库的查询第39-47页
    3.1 语料库的基本特点第39页
    3.2 语料库查询的基本问题第39-41页
        3.2.1 检索的基本问题第41页
        3.2.2 语言关系的基本问题第41页
    3.3 统一的解决方案:SAG第41-46页
        3.3.1 基本思想第41-42页
        3.3.2 SAG的基本结构第42-43页
        3.3.3 SAG的基本操作第43-44页
        3.3.4 算法的设计第44-46页
    3.4 本章小结第46-47页
第4章 重要算法与结构第47-67页
    4.1 多模式字符串搜索第47-52页
        4.1.1 Aho-Corasick算法第47页
        4.1.2 改进算法automps第47-51页
        4.1.3 等长多字节编码的处理第51-52页
    4.2 网页正文抽取第52-53页
    4.3 编码字符处理第53-59页
        4.3.1 不等长编码字符获取mixgetter第53-55页
        4.3.2 不等长编码文本遍历iterate_text第55-56页
        4.3.3 字符层面清洁第56-59页
    4.4 语料剖析第59-64页
        4.4.1 剖析至段落层次第59-61页
        4.4.2 段落剖析算法第61-64页
        4.4.3 断句算法第64页
    4.5 SAG-2在GB18030双字节编码下的设计第64-66页
    4.6 本章小结第66-67页
第5章 系统设计第67-77页
    5.1 结构与组织第67-70页
        5.1.1 主要功能模块与语料数据处理过程第67-68页
        5.1.2 系统组织第68-69页
        5.1.3 语料库组织第69页
        5.1.4 应用程序组织第69-70页
    5.2 主要应用程序的设计与算法第70-72页
        5.2.1 htm12txt第70-71页
        5.2.2 wordpurify第71页
        5.2.3 sntcpurify第71-72页
        5.2.4 sntccut第72页
    5.3 语料库建设的操作步骤第72-73页
    5.4 通用性与可移植性考虑第73-74页
    5.5 系统结构组织列表第74-75页
    5.6 本章小结第75-77页
第6章 《资治通鉴》语料库建设与实验第77-89页
    6.1 实例:《资治通鉴》语料库建设第77-84页
        6.1.1 选择《资治通鉴》作为语料第77-78页
        6.1.2 选择GB18030双字节编码第78页
        6.1.3 确定标注格式第78-80页
        6.1.4 网页文档到粗糙语料的转化第80-82页
        6.1.5 字符层面的清洁第82页
        6.1.6 断句、断句标点的清洁第82-84页
    6.2 实验方法第84-86页
        6.2.1 正确性验证第84-86页
        6.2.2 效率验证第86页
    6.3 实验内容与结论第86-88页
        6.3.1 正确性第86-87页
        6.3.2 效率第87页
        6.3.3 实验结论第87-88页
    6.4 工作环境第88页
    6.5 本章小结第88-89页
第7章 总结与展望第89-91页
    7.1 总结第89-90页
    7.2 展望第90-91页
参考文献第91-95页
致谢第95页

论文共95页,点击 下载论文
上一篇:基于改进决策树的入侵检测算法的研究
下一篇:基于Red5流媒体服务器的远程互动教育系统的设计与实现