首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于向量空间模型的中文文本聚类方法的研究

摘要第2-4页
ABSTRACT第4-5页
第1章 绪论第10-16页
    1.1 引言第10-11页
    1.2 文本挖掘技术简介第11-12页
    1.3 文本聚类的研究意义第12-13页
    1.4 文本聚类技术第13-14页
    1.5 本文的工作第14-16页
第2章 中文文本聚类算法综述第16-33页
    2.1 文本表示模型第16-18页
        2.1.1 布尔模型第16-17页
        2.1.2 向量空间模型第17页
        2.1.3 概率检索模型第17-18页
        2.1.4 语言模型第18页
    2.2 文本相似度衡量第18-20页
        2.2.1 文档与文档之间的相似度度量第19页
        2.2.2 文档集合与文档集合之间的相似度度量第19-20页
        2.2.3 文档与文档集合之间的相似度度量第20页
    2.3 文档信息特征集的缩减第20-22页
        2.3.1 信息增益第21页
        2.3.2 期望交叉熵第21页
        2.3.3 互信息量第21-22页
        2.3.4 文本证据权第22页
        2.3.5 词频第22页
    2.4 中文文本聚类算法第22-30页
        2.4.1 划分方法第22-25页
        2.4.2 层次方法第25-27页
        2.4.3 基于密度的方法第27-28页
        2.4.4 基于网格的方法第28-29页
        2.4.5 基于模型的方法第29-30页
    2.5 文本聚类效果评价指标第30-32页
    2.6 本章小结第32-33页
第3章 中文文本聚类算法的研究与分析第33-62页
    3.1 实验环境介绍第33-36页
        3.1.1 分词软件介绍第33-34页
        3.1.2 语料库介绍第34-36页
    3.2 实验设计第36-43页
        3.2.1 文本特征表示设计第36-38页
        3.2.2 文本特征缩减设计第38-40页
        3.2.3 聚类算法设计第40-43页
    3.3 实验结果第43-52页
        3.3.1.K -Means 实验结果第43-46页
        3.3.2.N earest Neighbor 实验结果第46-47页
        3.3.3.M ax-Distance Clustering 实验结果第47-49页
        3.3.4 凝聚法实验结果第49-50页
        3.3.5 分裂法实验结果第50-52页
    3.4 实验结果分析第52-61页
        3.4.1 几种聚类算法的性能比较第52-55页
        3.4.2 簇内代表点的选择对聚类的影响第55-58页
        3.4.3 相似度函数的选择对聚类的影响第58-59页
        3.4.4.K -Means 中初始聚类中心的选择对聚类的影响第59-61页
    3.5 本章小结第61-62页
第4章 中文文本聚类的相关改进第62-72页
    4.1 现有算法的问题第62-64页
        4.1.1.K -Means 算法存在的问题第62-63页
        4.1.2.N earest Neighbor与Max-Distance Clustering算法存在的问题第63-64页
        4.1.3 层次算法存在的问题第64页
        4.1.4 上述算法普遍存在的问题第64页
    4.2 相关改进第64-65页
    4.3 实验设计第65-67页
        4.3.1 引入词性分析策略的设计第65页
        4.3.2 引入词语搭配关系策略的设计第65页
        4.3.3 引入同义词与近义词分析策略的设计第65-67页
    4.4 实验结果与分析第67-70页
        4.4.1 实验结果第67-68页
        4.4.2 实验分析第68-70页
    4.5 本章小结第70-72页
第5章 总结与展望第72-74页
    5.1 工作总结第72页
    5.2 未来展望第72-74页
参考文献第74-77页
致谢第77-78页
攻读学位期间发表的学术论文第78-80页

论文共80页,点击 下载论文
上一篇:大型轴类锻件锻造过程的数值模拟研究
下一篇:网络舆情对政府形象的影响及应对策略研究