首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于相似性计算与半监督聚类方法的微博广告发布者识别研究

摘要第5-6页
Abstract第6-7页
第一章 绪论第12-15页
    1.1 研究背景及意义第12页
    1.2 微博垃圾信息筛选相关研究概述第12-13页
    1.3 主要工作与组织结构第13-15页
第二章 相似度计算及聚类分析技术与理论第15-23页
    2.1 TF-IDF算法第15-16页
    2.2 文本相似性计算第16-18页
        2.2.1 基于字符串的方法第16页
        2.2.2 基于语料库的方法第16-18页
    2.3 Ljung-Box检验第18-19页
        2.3.1 随机序列第18页
        2.3.2 随机序列的几种常用检验方法第18页
        2.3.3 Ljung-Box检验第18-19页
    2.4 聚类分析第19-22页
        2.4.1 文本聚类方法第19-21页
        2.4.2 聚类方法第21-22页
    2.5 本章小结第22-23页
第三章 基于加权连续词袋模型的微博短文本相似度计算第23-30页
    3.1 Word2vec模型计算词向量第23-24页
    3.2 基于简单均值表示法的相似性度量第24-25页
    3.3 基于TF-IDF加权的相似性度量第25-27页
    3.4 基于改进的WMD模型的文本相似性度量第27-29页
    3.5 本章小结第29-30页
第四章 基于半监督聚类的微博广告发布者识别研究第30-43页
    4.1 基于文本特征与聚类分析的微博广告发布者识别流程第30-31页
    4.2 核心微博序列提取第31页
    4.3 文本特征提取第31-35页
        4.3.1 用户发帖文本相似度第32-33页
        4.3.2 广告语料相似度第33页
        4.3.3 时序规律性度量第33-34页
        4.3.4 广告元素数量第34-35页
    4.4 聚类分析第35-42页
        4.4.1 聚类算法选择第35页
        4.4.2 基于密度的聚类算法DBSCAN第35-38页
        4.4.3 基于成对约束的半监督聚类算法C-DBSCAN第38-42页
    4.5 本章小结第42-43页
第五章 实验设计与结果分析第43-53页
    5.1 实验数据第43-44页
    5.2 实验环境第44页
    5.3 评价指标第44页
    5.4 数据预处理第44-46页
        5.4.1 文本去噪第45页
        5.4.2 中文分词及停用词过滤第45-46页
    5.5 实验结果与分析第46-52页
        5.5.1 基于加权连续词袋模型的微博短文本相似度计算第46-48页
        5.5.2 基于文本特征与聚类分析的微博广告发布者识别第48-52页
    5.6 本章小结第52-53页
第六章 分析与展望第53-55页
    6.1 全文总结第53页
    6.2 下一步研究方向第53-55页
参考文献第55-59页
致谢第59-60页
攻读硕士学位期间主要的研究成果第60-61页
攻读硕士学位期间参与的项目第61-63页

论文共63页,点击 下载论文
上一篇:RNA-Seq Reads mapping中基于Spark的并行FM-Index算法研究
下一篇:基于多光谱数据融合的图像显著性检测