首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于文本流的中文新词识别技术研究与应用

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第10-18页
    1.1 研究背景及意义第10-12页
        1.1.1 研究背景第10页
        1.1.2 研究意义第10-12页
    1.2 研究现状第12-14页
        1.2.1 基于规则的方法第12-13页
        1.2.2 基于统计的方法第13-14页
        1.2.3 基于规则与统计相结合的方法第14页
    1.3 本文的主要工作第14-15页
    1.4 本文的组织结构第15-18页
第二章 相关理论和技术第18-26页
    2.1 新词的定义与特征第18-20页
        2.1.1 新词的定义第18页
        2.1.2 新词产生途径第18-19页
        2.1.3 新词词频特征第19-20页
    2.2 统计语言模型概述第20-21页
    2.3 信息论基础第21-23页
        2.3.1 随机变量第21页
        2.3.2 熵、条件熵、联合熵第21-22页
        2.3.3 互信息第22-23页
    2.4 新词模式分析第23-25页
        2.4.1 单字串模式第24页
        2.4.2 后缀模式第24-25页
        2.4.3 其他模式第25页
    2.5 本章小结第25-26页
第三章 基于文本流新词识别研究第26-46页
    3.1 本文相关定义第26-28页
        3.1.1 预处理第26页
        3.1.2 切分字串第26-27页
        3.1.3 最长单字连续串第27页
        3.1.4 最长单字连续串子串第27-28页
    3.2 生成垃圾串字典第28页
    3.3 建立上下文模型第28-33页
    3.4 基于单字串模式新词识别第33-41页
        3.4.1 最大平均互信息第33-36页
        3.4.2 停用字过滤第36-37页
        3.4.3 最小邻接熵第37-40页
        3.4.4 极大值方法第40-41页
    3.5 基于后缀模式识别新词第41-43页
        3.5.1 阈值法识别第41-42页
        3.5.2 归纳法识别第42-43页
    3.6 传统新词跟踪第43-44页
    3.7 本章小结第44-46页
第四章 基于文本流新词识别系统的设计与实现第46-58页
    4.1 系统设计概述第46-47页
    4.2 系统具体设计第47-54页
        4.2.1 语料获取模块第47-51页
            4.2.1.1 网络爬虫设计第47-49页
            4.2.1.2 文本流的构建第49-51页
        4.2.2 预处理模块第51-52页
        4.2.3 上下文信息收集模块第52页
        4.2.4 传统新词识别模块第52-54页
    4.3 系统展示第54页
    4.4 系统运行第54-56页
        4.4.1 语料获取模块的运行效果第54-55页
        4.4.2 预处理模块的运行效果第55页
        4.4.3 新词识别模块的运行效果第55-56页
    4.5 本章小结第56-58页
第五章 实验结果与分析第58-66页
    5.1 性能指标第58-59页
    5.2 新词识别的实验结果与分析第59-64页
        5.2.1 基于单字串模式第59-63页
        5.2.2 基于后缀模式第63页
            5.2.2.1 阈值法识别第63页
            5.2.2.2 归纳法识别第63页
            5.2.2.3 错误分析第63页
        5.2.3 传统新词追踪第63-64页
    5.3 本章小结第64-66页
第六章 总结与展望第66-68页
    6.1 论文的工作总结第66页
    6.2 未来的工作展望第66-68页
参考文献第68-72页
致谢第72-74页
攻读学位期间发表或录用的学术论文第74页

论文共74页,点击 下载论文
上一篇:基于知识库的共指消解和实体连接问题研究
下一篇:我国高水平训练基地发展现状对策与研究--以国家体育总局训练局为例