首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于改进CHIR-TCFS算法的中文短文本聚类方法研究

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第10-17页
    1.1 研究背景和意义第10-11页
    1.2 短文本处理的特点第11页
    1.3 国内外研究现状第11-14页
    1.4 主要工作第14-15页
    1.5 文章结构安排第15-17页
第二章 相关技术和算法简介第17-27页
    2.1 文本预处理第17-18页
    2.2 经典的文本聚类算法第18-23页
        2.2.1 K-means算法第18-19页
        2.2.2 BIRCH算法第19-21页
        2.2.3 DBSCAN算法第21-22页
        2.2.4 EM算法第22-23页
    2.3 CHIR特征选择和CHIR-TCFS算法第23-26页
    2.4 本章小结第26-27页
第三章 CHIR-TCFS短文本聚类算法的初次改进第27-46页
    3.1 特征选择方法的改进第27-33页
        3.1.1 非平衡数据集特征选择概述第27-28页
        3.1.2 信息增益方法及其改进第28-30页
            3.1.2.1 基于信息增益的特征选择第28页
            3.1.2.2 信息增益特征选择的改进第28-30页
        3.1.3 TF-IDF方法及其改进第30-33页
            3.1.3.1 基于TF-IDF的特征选择第30-31页
            3.1.3.2 TF-IDF特征选择的改进第31-33页
    3.2 基于基样本点的原始聚类中心的选取第33-35页
    3.3 初次改进的CHIR-TCFS短文本聚类算法第35-36页
    3.4 实验结果及分析第36-44页
        3.4.1 实验数据准备第36-37页
        3.4.2 实验对比对象第37页
        3.4.3 评价指标第37-38页
        3.4.4 相似度量公式第38-39页
        3.4.5 相关实验及分析第39-44页
    3.5 本章小结第44-46页
第四章 快速收敛聚类算法第46-57页
    4.1 短文本规模现状概述第46页
    4.2 初次改进的CHIR-TCFS算法性能分析第46-47页
    4.3 排斥弱表征能力特征的相似度计算第47-48页
    4.4 强表征能力特征的快速收敛算法第48-50页
    4.5 实验结果及分析第50-56页
        4.5.1 参数测试第50-53页
        4.5.2 快速收敛算法性能评价第53-56页
    4.6 本章小结第56-57页
第五章 总结与展望第57-59页
    5.1 主要工作第57-58页
    5.2 未来展望第58-59页
致谢第59-60页
参考文献第60-65页
详细摘要第65-67页

论文共67页,点击 下载论文
上一篇:运动摄像机下基于EMP的运动目标检测算法研究
下一篇:基于脑机交互的主动式卒中康复系统的研究与开发