首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于组合频率的中文新词发现算法

摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第11-17页
    1.1 研究背景第11-12页
    1.2 研究意义第12-13页
    1.3 研究现状第13-15页
    1.4 论文的主要研究内容第15-16页
    1.5 论文的章节安排第16-17页
第二章 中文新词发现相关理论及框架结构建立第17-29页
    2.1 现代中文的语义结构第17-18页
    2.2 面向计算机识别的中文新词定义及特征确定第18-21页
        2.2.1 中文新词特征分析第19-21页
    2.3 中文新词识别方法介绍第21-25页
        2.3.1 基于监督学习的新词识别方法第21-23页
        2.3.2 基于无监督学习的新词识别方法第23-25页
    2.4 中文新词发现框架结构建立第25-27页
    2.5 本章小结第27-29页
第三章 初始语料库字符串预处理过程分析第29-35页
    3.1 初始语料库字符串预处理流程第29-30页
    3.2 基于jieba的中文分词预处理过程第30-32页
        3.2.1 基于jieba的分词模式选择第30-31页
        3.2.2 停用词处理第31-32页
    3.3 基于N-gram模型的滑动扫描窗格第32-33页
    3.4 本章小结第33-35页
第四章 基于组合频率的中文新词发现算法及关键阈值指标体系建立第35-47页
    4.1 中文新词发现算法核心思路第35-36页
    4.2 中文新词发现算法关键阈值指标体系建立第36-45页
        4.2.1 基于组合频率的词内聚合程度第36-40页
        4.2.2 基于信息熵的词间组合程度第40-44页
        4.2.3 逆向文档频率第44-45页
    4.3 本章小结第45-47页
第五章 中文新词发现实验设置和结果分析第47-59页
    5.1 基于TF-IDF算法的对比实验设置第47-49页
    5.2 新词发现结果评价标准第49-50页
    5.3 新词发现实验设置及结果分析第50-58页
        5.3.1 实验流程第50-52页
        5.3.2 基于Scrapy的实验设计及实现第52-56页
        5.3.3 实验结果分析第56-58页
    5.4 本章小结第58-59页
第六章 总结与展望第59-61页
    6.1 全文总结第59-60页
    6.2 展望第60-61页
参考文献第61-65页
致谢第65-67页
攻读硕士学位期间发表的学术论文第67页

论文共67页,点击 下载论文
上一篇:智能医疗诊断系统中隐私保护方法的研究
下一篇:蜂窝物联网中大规模设备接入算法设计与平台搭建