首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于农业文本数据的K均值聚类算法研究

摘要第4-5页
Abstract第5页
目录第6-8页
1 绪论第8-12页
    1.1 研究背景及意义第8-9页
    1.2 国内外研究现状第9-10页
    1.3 本文所做的工作第10-11页
    1.4 本文的主要内容及组织第11-12页
2 文本预处理相关技术研究第12-23页
    2.1 文本预处理第12-15页
        2.1.1 中文分词第13-14页
        2.1.2 停用词处理第14-15页
        2.1.3 建立专业主词典、同义词归并第15页
    2.2 文本特征选择第15-19页
        2.2.1 信息增益(Information Gain,IG)第16-17页
        2.2.2 互信息(Mutual Information,MI)第17页
        2.2.3 期望交叉熵(Expected Cross Entropy,ECE)第17页
        2.2.4 χ~2统计(CHI)第17-18页
        2.2.5 文档频率(Document Frequency,DF)第18页
        2.2.6 单词权(Term Strength,TS)第18页
        2.2.7 单词熵(Entropy-based Feature Ranking,EN)第18-19页
    2.3 文本表示模型第19-21页
        2.3.1 布尔模型第19页
        2.3.2 向量空间模型(Vector Space Model,VSM)第19-21页
        2.3.3 概率检索模型第21页
    2.4 文本预处理流程第21-22页
    2.5 本章小结第22-23页
3 特征词权重计算方法第23-31页
    3.1 常用的特征权重计算方法第23-24页
    3.2 TFIDF方法的介绍第24-26页
        3.2.1 TFIDF算法的优缺点第25-26页
        3.2.2 特征分布的维度第26页
    3.3 TFIDF的改进第26-30页
        3.3.1 信息熵(Information Entropy,IE)第26-27页
        3.3.2 类别区分能力的改进第27-28页
        3.3.3 文档区分能力的改进第28-29页
        3.3.4 改进的TFIDF函数公式第29页
        3.3.5 改进TFIDF相似度实验结果第29-30页
    3.4 本章小结第30-31页
4 文本聚类算法第31-40页
    4.1 划分方法第31-33页
    4.2 层次聚类方法第33-35页
    4.3 基于密度的方法第35-36页
    4.4 基于网格的方法第36-37页
    4.5 基于模型的聚类方法第37页
    4.6 聚类算法性能的比较第37-38页
    4.7 文本聚类结果的评价第38-39页
        4.7.1 人工判定指标第38-39页
        4.7.2 目标函数判定指标第39页
    4.8 本章小结第39-40页
5 K均值聚类算法的改进第40-48页
    5.1 K-means算法分析第40页
    5.2 K-means算法的局限性第40页
    5.3 孤立点研究第40-41页
    5.4 k-means算法的优化第41-43页
        5.4.1 优化思想第41-42页
        5.4.2 优化的算法描述第42-43页
    5.5 基于最远点聚类有效性函数第43-45页
    5.6 实验数据分析第45-47页
    5.7 本章小结第47-48页
6 总结与展望第48-50页
    6.1 全文总结第48页
    6.2 下一步工作展望第48-50页
参考文献第50-53页
硕士期间发表的论文第53-54页
致谢第54页

论文共54页,点击 下载论文
上一篇:基于改进遗传算法的最大类间方差图像分割方法研究
下一篇:基于物联网的农业环境监测系统的研究与设计