首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

改进K-means算法在文本聚类中的应用

摘要第3-5页
Abstract第5-6页
第一章 绪论第10-15页
    1.1. 课题研究的依据及意义第10-14页
        1.1.1. 文本聚类研究现状第11-12页
        1.1.2. k-means研究现状第12-14页
    1.2. 课题研究的内容第14页
    1.3. 论文组织结构第14-15页
第二章 聚类原理与方法第15-23页
    2.1. 常用的聚类方法第15-18页
        2.1.1. 基于划分的方法第15页
        2.1.2. 基于层次的聚类方法第15-17页
        2.1.3. 基于密度的聚类方法第17-18页
    2.2. 相似度比较方法第18-20页
        2.2.1. 基于距离的度量第18-19页
        2.2.2. 标称型属性度量第19页
        2.2.3. 序数属性相似性度量第19-20页
        2.2.4. 余弦相似度度量第20页
    2.3. 聚类评估第20-23页
        2.3.1. 估计聚类趋势第20-21页
        2.3.2. 测定聚类质量第21-23页
            2.3.2.1. 外在方法第21-22页
            2.3.2.2. 内在方法第22-23页
第三章 k-means改进算法设计与验证第23-41页
    3.1. 经典k-means聚类算法第23-25页
    3.2. 最小化误差平方和的k-means初始聚类中心优化算法minSSEKmeans第25-28页
        3.2.1. 基本原理第25-26页
        3.2.2. 基本步骤第26-27页
        3.2.3. 算法复杂度分析第27-28页
    3.3. minSSEKmeans实验验证第28-35页
        3.3.1. 真实数据集第28-32页
            3.3.1.1. 聚类时间对比第28-30页
            3.3.1.2. F值比较第30-31页
            3.3.1.3. 迭代次数以及sse比较第31-32页
        3.3.2. 人工模拟数据第32-35页
    3.4. 基于正态分布的k-means孤立点过滤算法ndfKmeans第35-41页
        3.4.1. 基本原理第35页
        3.4.2. 基本步骤第35-37页
        3.4.3. 模拟实验验证第37-41页
第四章 改进算法在中文文本聚类中的应用第41-53页
    4.1. 分词第41-44页
        4.1.1. 分词方法第42-43页
            4.1.1.1. 机械分词方法第42-43页
            4.1.1.2. 统计分词方法第43页
            4.1.1.3. 理解分词方法第43页
        4.1.2. 词干提取第43-44页
        4.1.3. 中文分词的难点第44页
    4.2. 过滤停用词第44-45页
    4.3. 文档表示模型第45-46页
    4.4. 文本聚类实验第46-53页
        4.4.1. 中文文本语料集第46-47页
        4.4.2. 代码结构描述第47-48页
        4.4.3. 实验结果对比第48-51页
            4.4.3.1. 相似度距离度量对比第48-50页
            4.4.3.2. 聚类质量对比第50-51页
            4.4.3.3. 聚类时间、迭代次数以及sse对比第51页
        4.4.4. 簇的描述信息第51-53页
第五章 总结与展望第53-55页
第六章 致谢第55-56页
参考文献第56-61页
硕士期间论文发表及专利申请情况第61页

论文共61页,点击 下载论文
上一篇:复杂条件下时间方位历程图中目标轨迹提取与检测
下一篇:汽车发动机缸体顶面铣削变形分析与误差控制