首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

网络新词发现算法研究

摘要第3-4页
Abstract第4-5页
第1章 绪论第9-15页
    1.1 课题研究背景及意义第9-10页
        1.1.1 课题研究背景第9页
        1.1.2 课题研究意义第9-10页
    1.2 国内外研究现状第10-12页
    1.3 新词识别的难点第12页
    1.4 本文研究的主要内容第12-13页
    1.5 本文的技术路线第13-14页
    1.6 论文组织结构第14-15页
第2章 新词识别的理论基础第15-25页
    2.1 自然语言处理第15-17页
        2.1.1 中文自然语言处理的主要技术方法第15-16页
        2.1.2 中文自然语言处理的内容与难点第16-17页
    2.2 中文分词技术第17-19页
        2.2.1 中文分词方法第17页
        2.2.2 中文分词方法存在的问题第17-19页
    2.3 新词的定义和特征第19-21页
        2.3.1 新词的定义第19-20页
        2.3.2 新词的特征第20-21页
    2.4 概率论与信息论基础第21-24页
        2.4.1 概率论第21-22页
        2.4.2 信息论基础第22-24页
    2.5 本章小结第24-25页
第3章 微博语料库第25-29页
    3.1 微博语料库的构建第25-27页
        3.1.1 网络爬虫第25-26页
        3.1.2 微博语料库的构建第26-27页
    3.2 分词词典的更新策略第27-28页
    3.3 本章小结第28-29页
第4章 基于微博消息特点的新词识别方法第29-43页
    4.1 目前新词识别方法的不足第29-30页
    4.2 算法的核心思想第30页
    4.3 候选字符串的获取第30-32页
        4.3.1 N-gram算法第30-31页
        4.3.2 原子切分第31页
        4.3.3 候选字符串的获取第31-32页
    4.4 候选字符串的过滤第32-33页
    4.5 BIS新词识别方法第33-35页
        4.5.1 BIS方法的前提假设第33-34页
        4.5.2 基于微博消息特点的新词识别方法第34-35页
    4.6 BIS方法新词识别过程第35-37页
        4.6.1 微博-词汇矩阵的构造和简化第36页
        4.6.2 未切割的候选新词识别第36页
        4.6.3 切割后的候选新词识别第36-37页
    4.7 实验与分析第37-42页
        4.7.1 实验设计第37-38页
        4.7.2 实验方案第38-39页
        4.7.3 第一部分实验结果与分析第39-41页
        4.7.4 第二部分实验结果与分析第41-42页
    4.8 本章小结第42-43页
第5章 基于平均互信息的BIS方法第43-51页
    5.1 基于平均互信息BIS方法的前提假设第43-44页
    5.2 改进方法的目标函数第44-45页
    5.3 新词识别过程第45-46页
    5.4 实验与分析第46-48页
        5.4.1 实验设计第46页
        5.4.2 实验方案第46页
        5.4.3 第一部分实验结果与分析第46-47页
        5.4.4 第二部分实验结果与分析第47-48页
    5.5 与其他方法的实验结果对比第48页
    5.6 本章小结第48-51页
第6章 总结与展望第51-53页
    6.1 论文工作总结第51页
    6.2 未来工作展望第51-53页
参考文献第53-57页
致谢第57-59页
个人简历、在学期间发表的学术论文与研究成果第59页

论文共59页,点击 下载论文
上一篇:KL公司营销策略研究
下一篇:基于P300的中文在线输入系统