首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于MapReduce的分布式网络舆情聚类方法的研究

致谢第5-6页
摘要第6-8页
ABSTRACT第8-9页
1 引言第13-17页
    1.1 研究背景及意义第13页
    1.2 国内外网络舆情聚类研究现状第13-15页
        1.2.1 国外研究现状第14页
        1.2.2 国内研究现状第14-15页
    1.3 论文主要工作第15页
    1.4 论文组织结构第15-17页
2 舆情文本聚类相关技术第17-35页
    2.1 文本聚类第17-18页
    2.2 文本预处理第18-22页
        2.2.1 中文分词第18-22页
        2.2.2 去除停用词第22页
    2.3 文本特征提取第22-26页
        2.3.1 信息增益(Information gain,IG)第23-24页
        2.3.2 互信息(Mutual Information)第24页
        2.3.3 χ2统计(CHI)第24-25页
        2.3.4 期望交叉熵(Expected Cross Entropy)第25页
        2.3.5 词频-逆向文档频率(TF-IDF)第25-26页
    2.4 文本表示第26-28页
        2.4.1 向量空间模型第26-27页
        2.4.2 布尔模型第27-28页
        2.4.3 概率模型第28页
    2.5 文本相似度计算第28-30页
        2.5.1 距离度量第28-29页
        2.5.2 相似度度量第29-30页
    2.6 主要的聚类算法第30-33页
    2.7 并行化聚类评价标准第33-34页
        2.7.1 加速比第33页
        2.7.2 效率第33-34页
        2.7.3 可扩展性第34页
    2.8 本章小结第34-35页
3 Hadoop项目综述第35-42页
    3.1 Hadoop项目简介第35-36页
    3.2 MapReduce分布式计算框架第36-39页
        3.2.1 MapReduce框架结构第36-37页
        3.2.2 MapReduce执行流程第37-39页
    3.3 HDFS分布式文件系统第39-41页
    3.4 本章小结第41-42页
4 改进的Birch算法第42-58页
    4.1 Birch算法不足第42-43页
    4.2 改进的CF-树构造方法第43-51页
        4.2.1 改进的CF-树构造方法第45-46页
        4.2.2 CF-树构造过程关键问题分析第46-51页
    4.3 改进的Birch算法第51-53页
    4.4 仿真第53-57页
        4.4.1 数据集第53-54页
        4.4.2 仿真结果第54-57页
    4.5 本章小结第57-58页
5 基于MapReduce的改进Birch算法的并行化研究第58-73页
    5.1 并行化整体方案设计第58-61页
    5.2 文本处理并行化设计与实现第61-63页
    5.3 改进Birch算法的并行化设计第63-68页
    5.4 实验与分析第68-72页
        5.4.1 实验环境第68-69页
        5.4.2 实验结果分析第69-72页
    5.5 本章小结第72-73页
6 总结第73-75页
    6.1 论文总结第73-74页
    6.2 未来工作第74-75页
参考文献第75-78页
作者简历及攻读硕士学位期间取得的研究成果第78-80页
学位论文数据集第80页

论文共80页,点击 下载论文
上一篇:TD-LTE系统间干扰检测与分类的研究及实现
下一篇:无轴承开关磁阻电机及其定子振动分析