首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于K-means算法的Web短文本聚类方法研究与应用

摘要第8-9页
ABSTRACT第9-10页
第1章 绪论第11-17页
    1.1 研究背景与意义第11-12页
    1.2 研究目的第12页
    1.3 国内外研究现状第12-13页
    1.4 主要创新点第13-14页
    1.5 主要研究内容第14-17页
第2章 文本聚类相关技术第17-27页
    2.1 文本预处理第17-19页
        2.1.1 中文分词第18页
        2.1.2 标注词性第18页
        2.1.3 停用词过滤第18-19页
    2.2 文本特征项表示第19-22页
        2.2.1 布尔模型第20页
        2.2.2 向量模型第20-21页
        2.2.3 概率模型第21-22页
        2.2.4 语言模型第22页
    2.3 文本相似度的计算第22-23页
    2.4 聚类算法第23-26页
        2.4.1 算法概述第24-25页
        2.4.2 K-means算法第25-26页
    2.5 Hadoop平台第26页
    2.6 本章小结第26-27页
第3章 Web短文本特征项抽取方法的改进第27-37页
    3.1 文本特征性抽取的方法概述第27-28页
    3.2 Bootstrapping算法的思想与流程第28-29页
    3.3 Web短文本特征项抽取方法流程第29-32页
        3.3.1 筛选名词性短语生成候选短语第30-31页
        3.3.2 候选对象的抽取第31-32页
        3.3.3 改进的Web短文本特征项抽取方法第32页
    3.4 实验分析第32-35页
        3.4.1 本文方法与不采用候选短语完整性评价后结果比较第33-34页
        3.4.2 本文方法与关键词匹配选取特征项得分后结果比较第34-35页
    3.5 本章小结第35-37页
第4章K-means算法的研究与改进第37-51页
    4.1 TFIDF公式的研究与改进第37-39页
        4.1.1 TFIDF公式简介第38页
        4.1.2 TFIDF公式的改进第38-39页
    4.2 K-means算法的研究与改进第39-42页
        4.2.1 K-means算法的描述第39-41页
        4.2.2 K-means算法的流程第41-42页
        4.2.3 K-means算法初始聚类中心的改进第42页
    4.3 实验分析第42-48页
        4.3.1 对预处理中权重计算TFIDF公式实验第42-45页
        4.3.2 选取实际数据集验证改进后的K-means算法精确度第45-47页
        4.3.3 多角度选取实际数据集验证改进后的K-means算法精确度第47-48页
        4.3.4 其他方法与本文基于Web短文本的改进K-means算法实验比较第48页
    4.4 本章小结第48-51页
第5章 基于Hadoop平台K-means算法的应用第51-59页
    5.1 云计算与Hadoop平台简述第51-52页
    5.2 MapReduce模型概述第52-53页
    5.3 K-means聚类算法结合MapReduce模型的实现第53-56页
        5.3.1 Web短文本网页文本的向量表示第54页
        5.3.2 K-means算法并行化实现流程第54-56页
    5.4 实验分析第56-58页
        5.4.1 Hadoop集群实验环境与实验数据第56-57页
        5.4.2 实验与分析第57-58页
    5.5 本章小结第58-59页
第6章 总结第59-61页
参考文献第61-67页
致谢第67-69页
在学期间主要科研成果第69-70页
    一、发表学术论文第69页
    二、其它科研成果第69页
    三、参加会议与实习第69-70页
附件第70-71页

论文共71页,点击 下载论文
上一篇:基于暗通道先验的图像去雾算法研究
下一篇:基于分水岭算法的图像分割研究