首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

微博评论信息的聚类分析

摘要第3-5页
Abstract第5-6页
第一章 绪论第10-18页
    一、研究背景及意义第10-11页
    二、文献综述第11-14页
        (一) 文本挖掘研究综述第11-12页
        (二) 微博短文本分析研究现状第12-14页
    三、微博评论特点及文本分析方法第14-16页
        (一) 微博评论信息特点第14页
        (二) 文本信息分析方法第14-16页
    四、本文研究内容及内容安排第16-18页
第二章 聚类方法分析第18-34页
    一、聚类分析概述第18-20页
        (一) 聚类分析的思想第18页
        (二) 文本聚类分析过程第18-19页
        (三) 文本聚类在网络舆情分析中的作用第19-20页
    二、聚类方法概述第20-27页
        (一) 基于k-means的文本聚类算法第21-22页
        (二) 基于k-medoids的文本聚类算法第22-23页
        (三) 基于系统聚类的文本聚类算法第23-25页
        (四) 文本聚类相似度度量方法第25页
        (五) 聚类结果评价第25-26页
        (六) 聚类算法性能的衡量第26-27页
    三、文本数据预处理第27-29页
        (一) 中文分词第27-28页
        (二) 停用词过滤第28-29页
    四、文本表示方法分析第29-31页
        (一) 布尔模型(Boolean Model)第29-30页
        (二) 词频( TermFrequeny,TF)矩阵第30-31页
        (三) 统计主题模型第31页
        (四) 向量空间模型(Vector Space Model,VSM)第31页
    五、特征选择方法分析第31-34页
第三章 微博评论信息的聚类实现过程第34-46页
    一、实验数据第34页
    二、实验环境及配置第34-37页
        (一) jiebaR包安装第34-35页
        (二) 分词第35-36页
        (三) 配置词典第36-37页
    三、数据预处理实现第37-40页
        (一) 文本去噪第37-39页
        (二) 分词及停用词过滤第39-40页
    四、文本表示过程第40-44页
        (一) 文本表示模型第40-41页
        (二) 特征选择第41-42页
        (三) 特征项权重计算第42-44页
    五、文本聚类算法比较及选择第44-46页
        (一) 词项聚类第45页
        (二) 文档聚类第45-46页
第四章 聚类结果及其分析第46-54页
    一、聚类结果分析第46-54页
        (一) 词项聚类结果第46-48页
        (二) 文档聚类结果第48-51页
        (三) 可视化图形第51-53页
        (四) 结果分析第53-54页
第五章 论文总结与展望第54-56页
    一、现阶段工作总结第54-55页
    二、未来工作展望第55-56页
参考文献第56-60页
附录第60-66页
    附近A 配置搜狗词典的相关代码及结果第60-61页
    附件B 文本去噪、分词以及停用词过滤的部分代码及结果第61页
    附件C 文本表示过程的相关代码、结果及说明第61-62页
    附录D 聚类分析相关代码结果及说明第62-66页
致谢第66-67页
攻读学位期间发表的学术论文目录第67页

论文共67页,点击 下载论文
上一篇:通背功对长春市中学生体质影响的实验研究
下一篇:武术套路“前扫腿”动作技术运动学特征研究